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手把手 教 你 构建 C 语言 编译 器 ” 这 一 系列 教程 将 带 你 从 头 编写 一 个 C 语言 的 编译 
Bo AZ 通过 这 个 系列 ， RATA El Mit és 的 构建 有 一 定 的 了 解 ， 同 时 ， 我 们 也 将 构 
建 出 一 个 能 用 的 C 语言 编译 器 ， 尽 管 有 许多 语法 并 不 支持 。 


在 开始 进入 正题 之 前 ， 本 篇 是 一 些 闲 聊 ， 谈 谈 这 个 系列 的 初 衰 。 如 果 你 和 急切 地 想 进 
入 正 篇 ， 请 跳 过 本 章 。 


为 什么 要 学 编译 原理 


如 果 要 我 说 计算 机 专业 最 重要 的 三 门 课 ， 我 会 说 是 《数据 EH) > 《算法 》 和 《 编 
译 原 2) "在 我 看 来 ， 能 不 能 理解 “递归 " 像 是 程序 员 的 第 一 道门 榄 ， 而 会 不 会 写 编 
译 器 则 是 第 二 道 。 


(当然 ， 并 不 是 说 是 没 写 过 编译 器 就 不 是 好 程序 员 ， 只 能 说 它 是 一 个 相当 大 的 挑战 
ve) 


以 前 人 们 会 说 ， 学 习 了 编译 原理 ， 你 就 能 写 出 更 加 高 效 的 代码 ， 但 随 着 计算 机 性 能 
的 提升 ， 代 码 是 否 高 效 显得 就 不 那么 重要 了 。 那 么 为 什么 要 学 习 编 译 原理 呢 ? 


原因 只 有 一 个 : XB” 
好 吧 ， 也 许 现在 还 想 学 习 编 译 原理 的 人 只 可 能 是 因为 兴趣 了 。 一 方面 想 了 解 它 的 工 
VERE: 另 一 方面 希望 挑战 一 下 自己 ， 看 看 自己 能 走 多 远 。 

仑 很 复杂 ， 实 现 也 很 复杂 ? 
我 对 编译 器 一 直 心 存 阁 佩 。 所 以 当 学 校 开 《编译 原理 》 的 课程 后 ， 我 是 抱 着 满腔 热 
情 去 上 课 的 ， 但 是 两 节 课 后 我 就 放弃 了 。 原 因 是 太 复 杂 了 ， 听 不 懂 。 
一 般 编 译 原 理 的 课程 会 说 一 些 : 


1. 如 何 表示 语法 (BNF 什 么 的 ) 

2. 词法 分 析 ， 用 什么 有 穷 自 动机 和 无 穷 自 动机 

3. 语法 分 析 ， 递 归 下 降 法 ， 什 么 LL(k) ，LALR 分 析 。 
4. 中 间 代 码 的 表示 

5, 代码 的 生成 

6. 代码 优化 


我 相信 绝 大 多 数 (98%) 的 学 生 顶 多 学 到 语法 分 析 就 结束 了 。 并 且 最 重要 的 是 ， 学 
了 这 么 多 也 没 用 上 依旧 帮助 不 了 我 们 学 习 编译 器 ! 这 其 中 最 主要 的 原因 是 《编译 原 
理 》 试 图 教会 我 们 的 是 如 何 构 造 “ 编 译 器 生成 器 *， 即 构造 一 个 工具 ， 根 据 文法 来 生 
成 编译 器 (如 lex/yacc) 等 等 。 


这 些 理论 试图 教会 我 们 如 何 用 通用 的 方法 来 自动 解决 问题 ， 它 们 有 很 强 的 实际 意 
义 ， 只 是 对 于 一 般 的 学 生 或 程序 员 来 说 ， 它 们 过 于 强大 ， 内 容 过 于 复杂 。 如 果 你 举 
试 阅读 lex/yacc (或 flex/bison) 的 代码 ， 就 会 发 现 太 可 怕 了 。 


然而 如 果 你 能 跟 我 一 样 ， 申 正 来 实现 一 个 简单 的 编译 器 ， 那 么 你 会 发 现 ， 比 起 可 怕 
的 《编译 原理 》， 这 点 复杂 度 还 是 不 算 什么 的 (因为 好 多 理论 根本 用 不 上 ) o 


ME AY A R 
有 一 次 在 Github 上 看 到 了 一 个 项 目 (当时 很 火 的 ) ， 名 叫 c4， 号 称 用 4 个 函数 来 
实现 了 一 个 小 的 C 语言 编译 器 。 它 最 让 我 震惊 的 是 能 够 自 举 ， 即 能 自己 编译 自己 。 
并 且 它 用 很 少 的 代码 就 完成 了 一 个 功能 相当 完善 的 C 语言 编译 器 。 
一 般 的 编译 器 相关 的 教程 要 么 就 十 分 简单 〈 如 实现 四 则 运算 ) ， 要 么 就 是 借助 了 自 
动 生 成 的 工具 (He flex/bison) 。 而 c4 的 代码 完全 是 手工 实现 的 ， 不 用 外 部 工具 。 
可 惜 的 是 它 的 代码 初 喜 是 代码 最 小 化 ， 所 以 写 得 很 乱 ， 很 难 懂 。 所 以 本 项 目的 主要 
目的 : 

1. 实现 一 个 功能 完善 的 C 语言 编译 器 

2. 通过 教程 来 说 明 这 个 过 程 。 
c4 大 致 500+ 行 。 重 写 的 代码 历时 一 周 ， 总 共 代 码 加 注释 1400 行 。 项 目地 址 : Write 
a C Interpreter ° 


声明 : 本 项 目 中 的 代码 逻辑 绝 大 多 数 取 自 c4 ， 但 确 为 自己 重 写 。 


ma 


在 写 编译 器 的 时 候 会 遇 到 两 个 主要 问题 : 
1. 麻烦， 会 有 许多 类 似 的 代码 ， 写 起 来 很 无 聊 。 
2. 难以 调试 ， 一 方面 没有 很 好 的 测试 用 例 ， 另 一 方面 需要 对 照 生成 的 代码 来 调试 
( 遇 到 的 时 候 就 知道 了 ) 。 


所 以 我 希望 你 有 足够 的 耐心 和 时 间 来 学 习 ， 相 信 当 你 站 正 完成 的 时 候 会 像 我 一 样 ， 
十 分 有 成 就 感 。 


PS. 第 一 篇 完全 没有 正题 相关 的 内 容 也 是 希望 你 能 有 所 心理 准备 再 开始 学 习 。 


. Let's Build a Compiler 很 好 的 初学 者 教程 ， 英 文 的 。 
. Lemon Parser Generator， 一 个 语法 分 析 器 生成 器 ， 对 照 《 编 译 原 理 》 观 看 效 


N 一 


手把手 教 你 做 一 个 C 语言 编译 器 (1) : 设计 

本 章 是 “手把手 教 你 构建 C 语言 编译 器 "系列 的 第 二 篇 ， 我 们 要 从 整体 上 讲解 如 何 设 
计 我 们 的 C 语言 编译 器 。 

本 系列 : 

1. 手把手 教 你 做 一 个 C 语言 编译 器 (0) : WS 


首先 要 说 明 的 是 ， 虽 然 标 题 是 编译 器 ， 但 实际 上 我 们 构建 的 是 C 语言 的 解释 器 ， 这 
意味 着 我 们 可 以 像 运行 脚本 一 样 去 运行 C 语言 的 源 代码 文件 。 这 么 做 的 理由 有 两 
点 : 


1. 解释 器 与 编译 器 仅 在 代码 生成 阶段 有 区 别 ， 而 其 它 方面 如 词法 分 析 、 语 法 分 析 
是 一 样 的 。 

2. 解释 器 需要 我 们 实现 自己 的 虚拟 机 与 指令 集 ， 而 这 部 分 能 帮助 我 们 了 解 计算 机 
的 工作 原理 。 


编译 器 的 构建 流程 

一 般 而 言 ， 编 译 器 的 编写 分 为 3 个 步骤 : 

1. 词法 分 析 器 ， 用 于 将 字符 串 转 化 成 内 部 的 表示 结构 。 

2. 语法 分 析 器 ， 将 词法 分 析 得 到 的 标记 流 (token) 生成 一 棵 语法 树 。 

3. 目标 代码 的 生成 ， 将 语法 树 转 化 成 目标 代码 。 

已 经 有 许多 工具 能 帮助 我 们 处 理 阶段 1 和 2， 如 flex 用 于 词法 分 析 ，bison 用 于 语法 
分 析 。 只 是 它们 的 功能 都 过 于 强大 ， 屏 蔽 了 许多 实现 上 的 细节 ， 对 于 学 习 构 建 编译 
器 帮助 不 大 。 所 以 我 们 要 完全 手写 这 些 功 能 。 

所 以 我 们 会 根据 下 面 的 流程 : 

1. 构建 我 们 自己 的 虚拟 机 以 及 指令 集 。 这 后 生成 的 目标 代码 便 是 我 们 的 指令 集 。 
2. 构建 我 们 的 词法 分 析 器 

3. 构建 语法 分 析 器 


编译 器 的 框架 

我 们 的 编译 器 主要 包括 4 个 函数 : 

next() 用 于 词法 分 析 ， 获 取 下 一 个 标记 ， 它 将 自动 忽略 空白 字符 。 
program() 语法 分 析 的 入 口 ， 分 析 整 个 C 语言 程序 。 


expression(level) 用 于 解析 一 个 表达 式 。 
eval() 虚拟 机 的 入 口 ， 用 于 解释 目标 代码 。 


OD 


这 里 有 一 个 单独 用 于 解析 “表达 式 " 的 函数 expression 是 因为 表达 式 在 语法 分 析 
中 相对 独立 并 且 比 较 复 杂 ， 所 以 我 们 将 它 单独 作为 一 个 模块 【函数 ) 。 


为 我 们 的 源 代 码 看 起 来 就 像 是 : 


#include <stdio.h> 
#include <stdlib.h> 
#include <memory.h> 
#include <string.h> 


int token; // current token 

char *src, *old_src; // pointer to source code string; 
int poolsize; // default size of text/data/stack 

int line; // line number 


void next() { 
token = *src++; 
return; 


} 


void expression(int level) { 
// do nothing 


} 


void program() { 

next(); // get next token 

while (token > 0) { 
printf("token is: %c\n", token); 
next(); 

} 

} 


int eval() { // do nothing yet 
return 0; 


} 
int main(int argc, char **argv) 
int i, fd; 


argc--; 
argv++; 


poolsize = 256 * 1024; // arbitrary size 
line = 1; 


if ((fd = open(*argv, 0)) < 0) { 
printf("could not open(%s)\n", *argv); 
return -1; 


} 


if (!(sre = old src = malloc(poolsize))) { 


printf("could not malloc(%d) for source area\n", poolsize); 
return -1; 


} 


// read the source file 

if ((i = read(fd, src, poolsize-1)) <= 0) { 
printf("read() returned %d\n", i); 

return -1,; 


} 
src[i] = 0; // add EOF character 
close(fd); 


program(); 
return eval(); 


} 


上 面 的 代码 看 上 去 挺 复杂 ， 但 其 实 内 容 不 多 ， 就 是 读 取 一 个 源 代码 文件 ， 逐 个 读 取 
每 个 字符 ， 并 输出 每 个 字符 。 这 里 重要 的 是 注意 每 个 函数 的 作用 ， 后 面 的 文章 中 ， 
我 们 将 逐个 填充 每 个 函数 的 功能 ， 最 终 构建 起 我 们 的 编译 器 。 


本 节 的 代码 可 以 在 Github 上 下 载 ， 也 可 以 直接 clone 


git clone -b step-0 https://github.com/lotabout/write-a-C-interpret 





这 样 我 们 就 有 了 一 个 最 简单 的 编译 器 : 什么 都 不 干 的 编译 器 ， 下 一 章 中 ， 我 们 将 实 
现 其 中 的 eval 部 数 ， 即 我 们 自己 的 虚拟 机 。 


手把手 教 你 做 一 个 C 语言 编译 器 (2) : 虚拟 机 


本 章 是 “手把手 教 你 构建 C 语言 编译 器 "系列 的 第 三 篇 ， 本 章 我 们 要 构建 一 台 虚 拟 的 
电脑 ， 设 计 我 们 自己 的 指令 集 ， 运 行 我 们 的 指令 集 ， 说 得 通俗 一 点 就 是 自己 实现 一 
套 汇 编 语 言 。 它 们 将 作为 我 们 的 编译 器 最 终 输 出 的 目标 代码 。 


本 系列 : 


1. 手把手 教 你 做 一 个 C 语言 编译 器 (0) : 前 言 
2. 手把手 教 你 做 一 个 C 语言 编译 器 (1) : 设计 


计算 机 的 内 部 工作 原理 


我 们 关心 计算 机 的 三 个 基本 部 件 : CPU、 寄 存 器 及 内 存 。 代 码 (汇编 指令 ) 以 二 进 
制 的 形式 保存 在 内 存 中 ，CPU 从 中 一 条 条 地 加 载 指令 执行 。 程 序 运行 的 状态 保存 在 
寄存 器 中 。 


内 存 


我 们 从 内 存 开始 说 起 。 现 代 的 操作 系统 都 不 直接 使 用 内 存 ， 而 是 使 用 唐 拟 内 存 。 讶 
拟 内 存 可 以 理解 为 一 种 映射 ， 在 我 们 的 程序 眼中 ， 我 们 可 以 使 用 全 部 的 内 存 地 址 ， 
而 操作 系统 需要 将 它 映射 到 实际 的 内 存 上 。 当 然 ， 这 些 并 不 重要 ， 重 要 的 是 一 般 而 
言 ， 进 程 的 内 存 会 被 分 成 几 个 段 : 


.代码 段 (text) 用 于 存放 代码 (WA) 。 

. 数据 段 (data) 用 于 存放 初始 化 了 的 数据 ， 如 int i = 10; ， 就 需要 存放 到 
数据 段 中 。 

3. 未 初始 化 数据 段 (bss) 用 于 存放 未 初始 化 的 数据 ， 如 int i[19000]; ， 因 为 
不 关心 其 中 的 茧 正 数 值 ， 所 以 单独 存放 可 以 节省 空间 ， 减 少 程序 的 体积 。 

4. 栈 (stack) 用 于 处 理子 数 调用 相关 的 数据 ， 如 调用 帧 (Calling frame) XH 
数 的 局 部 变量 等 。 

5. 堆 (heap) 用 于 为 程序 动态 分 配 内 存 。 


它们 在 内 存 中 的 位 置 类 似 于 下 图 : 


N) 一 
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| T v | 

| | 

| | 

| | 

| | 
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| heap | | 
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| bss segment | 
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但 我 们 的 虚拟 机 并 不 模拟 完整 的 计算 机 ， 我 们 只 关心 三 个 内 容 : 代码 段 、 数 据 段 以 
及 栈 。 其 中 的 数据 段 我 们 只 存放 字符 串 ， 因 为 我 们 的 编译 器 并 不 支持 初始 化 变量 ， 
因此 我 们 也 不 需要 未 初始 化 数据 段 。 理 论 上 我 们 的 虚拟 器 需要 维护 自己 的 堆 用 于 内 
存 分 配 ， 但 实际 实现 上 较为 复杂 且 与 编译 无 关 ， 故 我 们 引入 一 个 指令 MSET ， 使 我 
们 能 直接 使 用 编译 器 (解释 器 ) 中 的 内 存 。 


综 上 ， 我 们 需要 首先 在 全 局 添加 如 下 代码 : 


int *text, // text segment 
*old_text, // for dump text segment 
*stack; // stack 

char *data; // data segment 


注意 这 里 的 类 型 ， 虽 然 是 int 型 ， 但 理解 起 来 应 该 作为 无 符号 的 整 型 ， 因 为 我 们 
会 在 代码 段 (text) 中 存放 如 指针 /内 存 地 址 的 数据 ， 它 们 就 是 无 符号 的 。 其 中 数据 
段 (data) 由 于 只 存放 字符 串 ， 所 以 是 char * 型 的 


接着 ， 在 main BAP here 0 BENEDEN: 


int main() { 
close(fd); 


// allocate memory for virtual machine 

if (!(text = old_text = malloc(poolsize))) { 
printf("could not malloc(%d) for text area\n", poolsize); 
return -1; 


} 

if (!(data = malloc(poolsize))) { 

printf("could not malloc(%d) for data area\n", poolsize); 
return -1,; 


} 

if (!(stack = malloc(poolsize))) { 

printf("could not malloc(%d) for stack area\n", poolsize); 
return -1; 


} 


memset(text, ©, poolsize); 
memset(data, ©, poolsize); 
memset(stack, ©, poolsize); 


program(); 


TE P ATA ST AT SEU EAT IRA 0 AE GH EAP AS A Fl APR 
寄存 器 ， 但 我 们 的 虚拟 机 中 只 使 用 4 个 寄存 器 ， 分 别 如 下 : 


1. PC 程序 计数 器 ， 它 存放 的 是 一 个 内 存 地 址 ， 该 地 址 中 存放 着 下 一 条 要 执行 
的 计算 机 指令 。 

2. SP 指针 寄存 器 ， 永 远 指向 当前 的 栈 顶 。 注 意 的 是 由 于 栈 是 位 于 高 地 址 并 向 
低地 址 增长 的 ， 所 以 入 栈 时 SP 的 值 减 小 。 

3. BP 基 址 指针 。 也 是 用 于 指向 栈 的 某 些 位 置 ， 在 调用 有 函数 时 会 使 用 到 它 

4. AX 通用 寄存 器 ， 我 们 的 虚拟 机 中 ， 它 用 于 存放 一 条 指令 执行 后 的 结果 。 


要 理解 这 些 寄 存 器 的 作用 ， 需 要 去 理解 程序 运行 中 会 有 哪些 状态 。 而 这 些 寄存 器 只 
是 用 于 保存 这 些 状态 的 。 


在 全 局 中 加 入 如 下 定义 : 


o 


5) 


int *pc, *bp, *sp, ax, cycle; // virtual machine registers 


在 main 元 数 中 加 入 初始 化 代码 ， 注 意 的 是 PC 在 初始 应 指向 目标 代码 中 
的 main 苞 数 ， 但 我 们 还 没有 写 任何 编译 相关 的 代码 ， 因 此 先 不 处 理 。 代 码 如 下 


memset(stack, ©, poolsize); 


bp = sp = (int *)((int)stack + poolsize); 
ax 0; 


program(); 
与 CPU 相关 的 是 指令 集 ， 我 们 将 专门 作为 一 个 小 节 


指令 集 


指令 集 是 CPU 能 识别 的 命令 令 的 集合 ， 也 可 以 说 是 CPU HE AS 。 这 里 我 们 要 
为 我 们 的 虚拟 机 构建 自己 的 指令 集 。 它 们 基于 x86 的 指令 集 ， ， 但 要 更 为 简单 i 


首先 在 全 局 变量 中 加 入 一 个 枚 举 类 型 ， 这 是 我 们 要 支持 的 全 部 指令 : 


// instructions 

enum { LEA ,IMM ‚JMP ,CALL,JZ ,JNZ ,ENT ,ADJ ,LEV ,LI ‚LC ,SI , 
OR ,XOR ,AND ,EQ ,NE ,LT ,GT ,LE ,GE ,SHL ,SHR ,ADD ,SUB ,ML 
OPEN, READ, CLOS, PRTF, MALC, MSET, MCMP, EXIT }; 


这 些 指令 的 顺序 安排 是 有 意 的 ， 稍 后 你 会 看 到 ， 带 有 参数 的 指令 在 前 ， 没 有 参数 的 
指令 在 后 。 这 种 顺序 的 唯一 作用 就 是 在 打印 调试 信息 时 更 加 方便 。 但 我 们 讲解 的 顺 
序 并 不 依据 它 。 





MOV 


MOV 是 所 有 指令 中 最 基础 的 一 个 ， 它 用 于 将 数据 放 进 寄存 器 或 内 存 地 址 ， 有 点 类 
WF C 语言 中 的 赋值 语句 。x86 的 MOV 指令 有 两 个 参数 ， 分 别 是 源 地 址 和 目标 地 
址 : MOV dest, source (Intel 风格 ) ， 表 示 将 source 的 内 容 放 在 dest 
中 ， 它 们 可 以 是 一 个 数 、 寄 存 器 或 是 一 个 内 存 地 址 。 


一 方面 ， 我 们 的 虚拟 机 只 有 一 个 寄 ， 男 一 方面 ， 识 别 这 些 参数 的 类 型 (是 数 还 
是 地 址 ) 是 比较 困难 的 ， URRIA “MOV 指令 拆 分 成 5 个 指令 ， 这 些 指令 只 接受 
一 个 参数 ， 如 下 : 


IMM &lt;num&gt; 将 &lt;num&gt; 放 入 寄存 器 ax Fe 

LC 将 对 应 地 址 中 的 字符 载 入 ax 中 ， 要 求 ax 中 存放 地 址 。 
LI 将 对 应 地 址 中 的 整数 载 入 ax 中 ， 要 求 ax 中 存放 地 址 。 
SC 将 ax 中 的 数据 作为 字符 存放 入 地 址 中 ， 要 求 栈 顶 存 放 地 址 。 
SI 将 ax 中 的 数据 作为 整数 存放 入 地 址 中 ， 要 求 栈 顶 存放 地 址 。 


dst dn 


你 可 能 会 觉得 将 一 个 指令 变 成 了 许多 指令 ， 整 个 系统 就 变 得 复杂 了 ， 但 实际 情况 并 
非 如 此 。 首 先是 MOV 指令 其 实 有 许多 变种 ， 根 据 类 型 的 不 同 有 MOVB ， MOVW 
等 指令 ， 我 们 这 里 的 LC/SC 和 LI/SI 就 是 对 应 字符 型 和 整 型 的 存 取 操 作 。 


但 最 为 重要 的 是 ， 通 过 将 mov 指令 拆 分 成 这 些 指令 ， 只 有 IMM 需要 有 参数 ， 
且 不 需要 判断 类 型 ， 所 以 大 大 简化 了 实现 的 难度 。 


在 eval() 函数 中 加 入 下 列 代码 : 


void eval() { 

int op, *tmp; 

while (1) { 

if (op == IMM) {ax 
else if (op == LC) {ax 


*pc++;} // load immediate value to ax 

*(char *)ax;} // load character to ax, ¢ 
else if (op == LI) {ax *(int *)ax;} // load integer to ax, addı 
else if (op == SC) {ax *(char *)*spt++ = ax;} // save character 
else if (op == SI) {*(int *)*sp++ = ax;} // save integer to addre 





其 中 的 *sp++ 的 作用 是 退 栈 ， 相 当 于 POP 操作 。 


这 里 要 解释 的 一 点 是 ， 为 什么 SI/SC 指令 中 ， 地 址 存放 在 栈 中 ， 而 LI/LC 

中 ， 地 址 存放 在 ax 中 ?原因 是 默认 计算 的 结果 是 存放 在 ax 中 的 ， 而 地 址 通常 
是 需要 通过 计算 获得 ， 所 以 执行 LI/LC 时 直接 从 ax 取 值 会 更 高 效 。 另 一 点 是 
#418 PUSH 指令 只 能 将 ax 的 值 放 到 栈 上 ， 而 不 能 以 值 作 为 参数 ， 详 细 见 下 
pE o 


PUSH 


在 x86 中 ， PUSH 的 作用 是 将 值 或 寄存 器 ， 而 在 我 们 的 虚拟 机 中 ， 它 的 作用 是 将 
ax 的 值 放 入 栈 中 。 这 样 做 的 主要 原因 是 为 了 简化 虚拟 机 的 实现 ， 并 且 我 们 也 只 
有 一 个 寄存 器 ax 。 代 码 如 下 : 


else if (op == PUSH) {*--sp = ax;} // push the value of ax onto the 





JMP 


JMP &lt;addragt; 是 跳 转 指令 ， 无 条 件 地 将 当前 的 pe 寄存 器 设置 为 指定 
&ltjaddr&gt; ， 实 现 如 下 : 


< 个 


else if (op == JMP) {pc = (int *)*pc;} // jump to the address 


要 记得 ， pc 寄存 器 指向 的 是 下 一 条 指令 。 所 以 此 时 它 存放 的 是 IMP 指令 的 参 
数 ， 即 &lt;addr&gt; 的 值 。 
JZIJNZ 


为 了 实现 if 语句 ， 我 们 需要 条 件 判 断 相关 的 指令 。 这 里 我 们 只 实现 两 个 最 简单 
的 条 件 判 断 ， 即 结果 (ax ) 为 零 或 不 为 零 情 况 下 的 跳 转 。 


实现 如 下 : 


else if (op == JZ) {pc = ax ? pe + 1: (int *)*pc;} // jump if æ 
K = 2 





else if (op == JNZ) {pc = ax ? (int *)*pc : pc + 1;} // jump if a 
mi — 5 


子 函 数 调用 


这 是 汇编 中 最 难 理解 的 部 分 ， 所 以 合 在 一 起 说 ， 要 引入 的 命令 有 CALL, ENT, 
ADJ 及 LEV 。 


首先 我 们 介绍 CALL &lt;addr&gt; 与 RET 指令 ， CALL 的 作用 是 跳 转 到 地 址 
为 &ltsaddregt; FBR? RET 则 用 于 从 子 函 数 中 返回 


为 什么 不 能 直接 使 用 IMP 指令 呢 ? 原因 是 当 我 们 从 子 函 数 中 返回 时 ， 程 序 需 要 回 
到 跳 转 之 前 的 地 方 继续 运行 ， 这 就 过 要 事先 将 这 个 位 置信 息 存储 起 来 。 反 过 来， 于 
函数 要 返回 时 ， 就 需要 获取 并 ， 取 复 这 个 信息 。 因 此 实际 中 我 们 将 PC REER 

中 。 如 下 : 





else if (op == CALL) {*--sp = (int)(pc+1); pc = (int *)*pc;} // ca. 
//else if (op == RET) {pc = (int *)*spt+;} 


4 == SE 
这 里 我 们 把 RET 相关 的 内 容 注 释 了 ， 是 因为 之 后 我 们 将 用 Lev 指令 来 代替 


o 


已 


在 实际 调用 函数 时 ， 不 仅 要 考虑 函数 的 地 址 ， 还 要 考虑 如 何 传 递 和 参数 和 如 何 返 回 结 
果 。 这 里 我 们 约定 ， 如 果子 函数 有 返回 结果 ， 那 么 就 在 返回 时 保存 在 ax PoE 
可 以 是 一 个 值 ， 也 可 以 是 一 个 地 址 。 那 么 参数 的 传递 呢 ? 


各 种 编程 语言 关于 如 何 调用 子 函 数 有 不 同 的 约定 ， 例 如 C 语言 的 调用 标准 是 : 





1. 由 调用 者 将 参数 入 栈 。 
2. 调用 结束 时 ， 由 调用 者 将 参数 出 栈 。 
3. 参数 逆序 入 栈 。 


事先 声明 一 下 ， 我 们 的 编译 器 参数 是 顺序 入 栈 的 ， 下 面 的 例子 (C 语言 调用 标准 ) 
RA 维基 百科 : 

int callee(int, int, int); 

int caller(void) 

{ 


int i, ret; 


ret = callee(1, 2, 3); 


bel t= 
return ret; 
} 


会 生成 如 下 的 x86 汇编 代码 : 


caller: 

; make new call frame 

push ebp 

mov ebp, esp 

sub 1, esp ; save stack for variable: i 
; push call arguments 

push 3 

push 2 

push 1 

; call subroutine 'callee' 
call callee 

; remove arguments from frame 
add esp, 12 

; use subroutine result 

add eax, 5 

; restore old call frame 

mov esp, ebp 

pop ebp 

; return 

ret 


上 面 这 段 代 码 在 我 们 自己 的 虚拟 机 里 会 有 几 个 问题 : 


push ebp ， 但 我 们 的 PUSH 指令 并 无 法 指定 寄存 器 。 
mov ebp, esp ， 我 们 的 MOV 指令 同样 功能 不 足 。 
3. add esp, 12 ， 也 是 一 样 的 问题 (尽管 我 们 还 没 定义 ) ° 


N — 


也 就 是 说 由 于 我 们 的 指令 过 于 简单 (如 只 能 操作 ax FAR) ， 所 以 用 上 面 提 到 的 
指令 ， 我 们 舌 函 数 调用 都 无 法 实现 。 而 我 们 又 不 希望 扩充 现 有 指令 的 功能 ， 因 为 这 
样 实现 起 来 就 会 变 得 复杂 ， 因 此 我 们 采用 的 方法 是 增加 指令 集 。 毕 竞 我 们 不 是 站 正 
的 计算 机 ， 增 加 指令 会 消耗 许多 资源 ( 钱 ) 。 


ENT 


ENT &lt;sizeagt; 指 的 是 enter > M T IL ‘make new call frame’ 的 功能 ， 
即 保存 当前 的 栈 指 针 ， 同 时 在 栈 上 保留 一 定 的 空间 ， 用 以 存放 局 部 变量 。 对 应 的 汇 
编 代 码 为 : 


; make new call frame 


push ebp 

mov ebp, esp 

sub 1, esp ; save stack for variable: i 
实现 如 下 : 


else if (op == ENT) {*--sp = (int)bp; bp = sp; sp = sp - *pc+t;} , 





ADJ 


ADJ &lt;size&gt; 用 于 实现 remove arguments from frame’ ° #4444) A F 2 žr 
时 压 入 栈 中 的 数据 清除 ， 本 质 上 是 因为 我 们 的 ADD 指令 功能 有 限 。 对 应 的 汇编 代 
码 为 : 


; remove arguments from frame 
add esp, 12 


实现 如 下 : 


else if (op == ADJ) {sp = sp + *pct+t+;} // add esp, <size> 


LEV 


本 质 上 这 个 指令 并 不 是 必需 的 ， 只 是 我 们 的 指令 集中 并 没有 POP 指令 。 并 且 三 条 
指令 写 来 比较 麻烦 且 浪费 空间 ， 所 以 用 一 个 指令 代替 。 对 应 的 汇编 指令 为 : 


; restore old call frame 
mov esp, ebp 


pop ebp 
; return 
ret 


具体 的 实现 如 下 : 


else if (op == LEV) {sp = bp; bp = (int *)*sp++; pc = (int *)*sp+- 


«| = 








注意 的 是 ， LEV 已 经 把 RET 的 功能 包含 了 ， 所 以 我 们 不 再 需要 RET 指令 。 


LEA 
上 面 的 一 些 指令 解决 了 调用 帧 的 问题 ， 但 还 有 一 个 问题 是 如 何在 子 函 数 中 获得 传 入 


的 参数 o 这 里 我 们 首先 要 了 解 的 是 当 参数 调用 时 9 栈 中 的 调用 EAF Z HE AY o 我 们 
依 晶 用 上 面 的 例子 (只 是 现在 用 “顺序 "调用 参数 ) : 


sub_function(argi, arg2, arg3); 


| Teut | high address 


boosvsconerdesag + 
| arg: 1 | new_bp + 4 
站 十 

| arg: 2 | new bp + 3 
onad + 

| arg: 3 | new_bp + 2 
HOO + 

|return address | new _bp + 1 
boosvedosendesas + 

| old BP | <- new BP 
二 十 

| local var 1 | new_bp - 1 
本 十 

| local var 2 | new_bp - 2 
edes + 


| eee | low address 


所 以 为 了 获取 第 一 个 参数 ， 我 们 需要 得 到 new bp + 4 ， 但 就 如 上 面 的 说 ， 我 们 
的 ADD 指令 无 法 操作 除 ax 外 的 寄存 器 ， 所 以 我 们 提供 了 一 个 新 的 指 
4: LEA &lt;offsetagt; 


实现 如 下 : 


else if (op == LEA) {ax = (int)(bp + *pc++);} // load address for 
J eee 
上 就 是 我 们 为 了 实现 函数 调用 需要 的 指令 了 。 








个 参数 ， 第 一 个 参数 放 在 栈 顶 ， 第 erry ax 中 。 这 个 顺序 要 特别 注 
意 。 因 为 像 - ，/ 之 类 的 运算 符 是 与 参数 顺序 有 关 的 。 计 算 后 会 将 栈 顶 的 参数 
退 栈 ， 结 果 存 放 在 寄存 器 ax 中 。 因 此 计算 结束 后 ， 两 个 参数 都 无 法 取得 了 OL 
编 的 意义 上 ， 存 在 内 存 地 址 上 就 另 当 别论 ) 。 


我 们 为 C 语言 中 支持 的 运算 算 符 都 提供 对 应 汇编 指令 。 每 个 运算 符 都 是 二 元 的 ， 即 有 
两 人 


实现 如 下 : 
else if (op == OR) ax sp++ | ax 
else if (op == XOR) ax spt+ ^ ax 
else if (op == AND) ax spt+ & ax 
else if (op == EQ) ax Sp++ == ax 
else if (op == NE) ax Sp++ != ax 
else if (op == LT) ax p++ < ax 


else if (op == LE) ax 
else if (op == GT) ax 
else if (op == GE) ax 
else if (op == SHL) ax 
else if (op == SHR) ax 
else if (op == ADD) ax 
else if (op == SUB) ax 
else if (op == MUL) ax 
else if (op == DIV) ax 
else if (op == MOD) ax 


组 序 要 有 用 ， 除 了 核心 的 逻辑 外 还 需要 输入 输出 ， 如 C 语言 中 我 们 经 常 使 用 的 
tet 部 数 就 是 用 于 输出 。 但 是 printf 哆 数 的 实现 本 身 就 十 分 复杂 ， 如 果 我 
们 的 编译 器 要 达到 自 举 ， 就 势必 要 实现 printf 之 类 的 函数 ， 但 它 又 与 编译 器 没 
有 太 大 的 联系 ， 因 此 我 们 继续 实现 新 的 指令 ， 从 虚拟 机 的 角度 予以 支持 。 


编译 器 中 我 们 需要 用 到 的 函数 有 : exit, open, close, read, printf , 
malloc , memset 及 memcmp 。 代 码 如 下 : 


else if (op == EXIT) printf("exit(%d)", *sp); return *sp;} 


else if (op == OPEN) ax = open((char *)sp[1], sp[0]); } 
else if (op == CLOS) ax = close(*sp);} 
else if (op == READ) ax = read(sp[2], (char *)sp[1], *sp); } 


else if (op == PRTF) tmp = sp + pc[1]; ax = printf((char *)tmp[-: 


AAA da AAAS 


else if (op == MALC) ax = (int)malloc(*sp);} 
else if (op == MSET) ax = (int)memset((char *)sp[2], sp[1], *sp), 
else if (op == MCMP) ax = memcmp((char *)sp[2], (char *)sp[1], * 


‘ ee 


这 里 的 原理 是 ， 我 们 的 电脑 上 已 经 有 了 这 些 函 数 的 实现 ， 因 此 编译 编译 器 时 ， 这 些 
函数 的 二 进 制 代码 就 被 编译 进 了 我 们 的 编译 器 ， 因 此 在 我 们 的 编译 器 /虚拟 机 上 运行 
我 们 提供 的 这 些 指令 时 ， 这 些 函 数 就 是 可 用 的 。 换 身 话说 就 是 不 需要 我 们 自己 去 实 
现 了 。 


最 后 再 加 上 一 个 错误 判断 : 








else { 
printf("unknown instruction:%d\n", op); 
return -1; 


} 


测试 


下 面 我 们 用 我 们 的 汇编 写 一 小 段 程序 ， 来 计算 10+20 ， 在 main 函数 中 加 入 下 
列 代 码 : 


int main(int argc, char *argv[]) 


{ 

ax = 0; 

i = 0; 

text[it++] = IMM; 
text[it+] = 10; 
text[i++] = PUSH; 
text[i++] = IMM; 
text[it+] = 20; 
text[i++] = ADD; 
text[i++] = PUSH; 
text[i++] = EXIT; 
pc = text; 


program(); 


编译 程序 gee xc-tutor.c ， 运 行程 序 : ./a.out hello.c 。 输 出 


exit(30) 


注意 我 们 的 之 前 的 程序 需要 指令 一 个 源 文 件 ， 只 是 现在 还 用 不 着 ， 但 从 结果 可 以 看 
出 ， 我 们 的 虚拟 机 还 是 工作 良好 的 。 


AEP BAN CURT HLH AREN 原理 ， 并 仿照 x86 汇编 指令 设计 并 实现 了 我 们 
自己 的 指令 集 。 


本 章 的 代码 可 以 在 Github 上 下 载 ， 也 可 以 直接 clone 


git clone -b step-1 https://github.com/lotabout/write-a-C-interpret 
wl = 5 


实际 计算 机 中 ， 添 加 一 个 新 的 指令 需要 设计 许多 新 的 电路 ， 会 增加 许多 的 成 本 ， 但 
我 们 的 需要 机 中 ， 新 的 指令 几乎 不 消耗 资源 ， 因 此 我 们 可 以 利用 这 一 点 ， 用 更 多 的 
指令 来 完成 更 多 的 功能 ， 从 而 简化 具体 的 实现 。 





手把手 教 你 做 一 个 C 语言 编译 器 (3) : 词法 分 析 


Q 


~ 


o 


本 章 我 们 要 讲解 如 何 构建 词法 分 析 器 
本 系列 : 
1. 手把手 教 你 做 一 个 C 语言 编译 器 (0) : WS 


2. 手把手 教 你 做 一 个 C 语言 编译 器 (1) : 设计 
3. 手把手 教 你 做 一 个 C 语言 编译 器 (2) : 虚拟 机 


什么 是 词法 分 析 器 


简 而 言 之 ， 词 法 分 析 器 用 于 对 源码 字符 串 做 预 处 理 ， 以 减少 语法 分 析 器 的 复杂 程 

度 。 

词法 分 析 器 以 源码 字符 串 为 输入 ， 输 出 为 标记 流 (token stream) ， 即 一 连 串 的 标 

记 ， 每 个 标记 通常 包括 : (token, token value) 即 标记 本 身 和 标记 的 值 。 例 

如 ， 源 码 中 若 包含 一 个 数字 '998' ， 词 法 分 析 器 将 输出 (Number, 998) ， 即 
(数字 ，998) 。 再 例如 : 


Ze) 
=> 
(Number, 2) Add (Number, 3) Multiply Left-Bracket (Number, 4) Subtt 


E 


通过 词法 分 析 器 的 预 处 理 ， 语 法 分 析 器 的 复杂 度 会 大 大 降低 ， 这 点 在 后 面 的 语法 分 
析 器 我 们 就 能 体会 。 





词法 分 析 器 与 编译 器 
要 是 深入 词法 分 析 器 ， 你 就 会 发 现 ， 它 的 本 质 上 也 是 编译 器 。 我 们 的 编译 器 是 以 标 


记 流 为 输入 ， 输 出 汇编 代码 ， 而 词法 分 析 器 则 是 以 源码 字符 串 为 输入 ， 输 出 标记 


Le 


-- source code --> | lexer | --> token stream --> | parser | --> a: 











在 这 个 前 提 下 ， 我 们 可 以 这 样 认为 : 直接 从 源 代码 编译 成 汇编 代码 是 很 困难 的 ， 因 
为 输入 的 字符 串 比 较 难 处 理 。 所 以 我 们 先 编写 一 个 较为 简单 的 编译 器 (词法 分 析 
器 ) 来 将 字符 串 转 换 成 标记 流 ， 而 标记 流 对 于 语法 分 析 器 而 言 就 容易 处 理 得 多 了 。 


词法 分 析 器 的 实现 


由 于 词法 分 析 的 工作 很 常见 ， 但 又 枯燥 且 容 易 出 错 ， 所 以 人 们 已 经 开发 出 了 许多 工 
具 来 生成 词法 分 析 器 ， 如 lex, flex 。 这 些 工具 允许 我 们 通过 正则 表达 式 来 识别 
ARIZ © 


这 里 注意 的 是 ， 我 们 并 不 会 一 次 性 地 将 所 有 源码 全 部 转换 成 标记 流 ， 原 因 有 二 : 
1. 字符 串 转换 成 标记 流 有 时 是 有 状态 的 ， 即 与 代码 的 上 下 文 是 有 关系 的 。 

2. 保存 所 有 的 标记 流 没 有 意义 且 浪 费 空 间 。 

所 以 实际 的 处 理 方法 是 提供 一 个 函数 ( 即 前 几 篇 中 提 到 的 next() ) ， 每 次 调用 
该 函数 则 返回 下 一 个 标记 。 


支持 的 标记 
在 全 局 中 添加 如 下 定义 : 


// tokens and classes (operators last and in precedence order) 

enum { 

Num = 128, Fun, Sys, Glo, Loc, Id, 

Char, Else, Enum, If, Int, Return, Sizeof, While, 

Assign, Cond, Lor, Lan, Or, Xor, And, Eq, Ne, Lt, Gt, Le, Ge, Shl, 

J; 
BT 
这 些 就 是 我 们 要 支持 的 标记 符 。 例 如 ， 我 们 会 将 = 解析 为 Assign ;将 == 解 
MA Eq ;将 != 解析 为 Ne 等 等 。 
所 以 这 里 我 们 会 有 这 样 的 印象 ， 一 个 标记 (token) 可 能 包含 多 个 字符 ， 且 多 数 情 
况 下 如 此 。 而 词法 分 析 器 能 减 小 语法 分 析 复 杂 度 的 原因 ， 正 是 因为 它 相 当 于 通过 一 
定 的 编码 (更 多 的 标记 ) 来 压缩 了 源码 字符 串 。 
当然 ， 上 面 这 些 标 记 是 有 顺序 的 ， 跟 它们 在 C 语言 中 的 优先 级 有 关 ， 如 *(Mul) 
的 优先 级 就 要 高 于 +(Add) 。 它 们 的 具体 使 用 在 后 面 的 语法 分 析 中 会 提 到 。 
最 后 要 注意 的 是 还 有 一 些 字 符 ， 它 们 自己 就 构成 了 标记 ， 如 右 方 括号 ] 或 波浪 号 
~ 等 。 我 们 不 另外 处 理 它们 的 原因 是 : 

1. 它们 是 单字 符 的 ， 即 并 不 是 多 个 字符 共同 构成 标记 (如 == 需要 两 个 字 

符 ) ; 
2. 它们 不 涉及 优先 级 关系 。 





词法 分 析 器 的 框 加 
BP next() BER: 


void next() { 
char *last_pos; 
int hash; 


while (token = *src) { 
++SrC; 
// parse token here 


} 


return, 


} 
这 里 的 一 个 问题 是 ， 为 什么 要 用 while 循环 呢 ? 这 就 涉及 到 编译 器 (记得 我 们 说 
过 词法 分 析 器 也 是 某 种 意义 上 的 编译 器 ) 的 一 个 问题 : 如 何 处 理 错误 ? 


对 词法 分 析 器 而 言 ， 若 碰 到 了 一 个 我 们 不 认识 的 字符 该 怎么 处 理 ?3 一 般 处 理 的 方法 
有 两 种 : 


1. 指出 错误 发 生 的 位 置 ， 并 退出 整个 程序 
2. 指出 错误 发 生 的 位 置 ， 跳 过 当前 错误 并 继续 编译 


分 。 因 此 在 实现 中 我 们 将 它 作为 “不 识别 "的 字符 ， 这 个 while 循环 可 以 用 来 跳 过 


换行 符 和 空格 类 似 ， 但 有 一 点 不 同 ， 每 次 遇 到 换行 符 ， 我 们 需要 将 当前 的 行 号 加 


// parse token here 


if (token == '\n') { 
++line; 


} 


REL 


C 语言 的 宏 定 义 以 字符 # 开头 ， 如 # include &lt;stdio.hagt; 。 我 们 的 编 
译 器 并 不 支持 宏 定 义 ， 所 以 直接 跳 过 它们 。 


else if (token == '#') { 

// skip macro, because we will not support it 
while (*src != © && *sre != '\n') { 

SrC++， 

} 

} 


RRG TR 


标识 符 (identifier) 可 以 理解 为 变量 名 。 对 于 语法 分 析 而 言 ， 我 们 并 不 关心 一 个 变 
量具 体 叫 什么 名 字 ， 而 只 关心 这 个 变量 名 代表 的 唯一 标识 。 例 如 int a; 定义 了 
变量 a ， 而 之 后 的 语 名 a = 10 ， 我 们 需要 知道 这 两 个 a 指向 的 是 同一 个 变 


基于 这 个 理由 ， 词 法 分 析 器 会 把 扫描 到 的 标识 符 全 都 保存 到 一 张 表 中 ， 遇 到 新 的 标 
识 符 就 去 查 这 张 表 ， 如 果 标 识 符 已 经 存在 ， 就 返回 它 的 唯一 标识 。 


么 我 们 怎么 表示 标识 符 呢 ?如 下 : 


struct identifier { 
int token; 

int hash; 

char * name; 

int class; 

int type; 

int value; 

int Bclass; 

int Btype; 

int Bvalue; 


i 


这 里 解释 一 下 具体 的 含义 : 


1. token : 该 标识 符 返 回 的 标记 ， 理 论 上 所 有 的 变量 返回 的 标记 都 应 该 是 
Id ， 但 实际 上 由 于 我 们 还 将 在 符号 表 中 加 入 关键 字 如 if , while 等 ， 它 
Ee o 


2. hash : @ 义 ， 就 是 这 个 标识 符 的 哈 硕 值 ， 用 于 标识 符 的 快速 比较 。 

3. name eka TAA HF FF Bo 

4. class : 该 标识 符 的 类 别 ， 如 数字 ， 全 局 变量 或 局 部 变量 等 。 

5. type : 标识 符 的 类 型 ， 即 如 果 它 是 个 变量 ， 变 量 是 int 型 、 char 型 还 
是 指针 型 。 

6. value : 存放 这 个 标识 符 的 值 ， 如 标识 符 是 函数 ， 刚 存放 有 函数 的 地 址 。 

7. BXXXX : C 语言 中 标识 符 可 以 是 全 局 的 也 可 以 是 局 部 的 ， 当 局 部 标识 符 的 名 


字 与 全 局 标识 符 相同 时 ， 用 作 保存 全 局 标识 符 的 信息 。 


由 上 可 以 看 出 ， 我 们 实现 的 词法 分 析 器 与 传统 意义 上 的 词法 分 析 器 不 太 相 同 。 传 统 
意义 上 的 符号 表 只 需要 知道 标识 符 的 唯一 标识 即 可 ， 而 我 们 还 存放 了 一 些 只 有 语法 
分 析 器 才 会 得 到 的 信息 ， 如 type 。 

由 于 我 们 的 目标 是 能 自 举 ， 而 我 们 定义 的 语法 不 支持 struct ， 故 而 使 用 下 列 方 
式 o 


Symbol table: 


Sede oen dino diene dine ne Tee 
| token|hash|name|type|class|value|btype|bclass|bvalue| 

Seo ates aS TAN OE EE TAR TE EN Eike 
|<--- one single identifier --->| 


即 用 一 个 整 型 数组 来 保存 相关 的 ID 信息 。 每 个 ID 占用 数组 中 的 9 个 空间 ， 分 析 标 识 
符 的 相关 代码 如 下 


int token_val; // value of current token (mainly for number ) 
int *current_id, // current parsed ID 
*symbols; // symbol table 


// fields of identifier 
enum {Token, Hash, Name, Type, Class, Value, BType, BClass, BValue, 


void next() { 


else if ((token >= 'a' && token <= 'z') || (token >= 'A' && token < 


// parse identifier 
last_pos = src - 1; 
hash = token; 


while ((*src >= 'a' && *src <= 'z') || (*src >= 'A' && *src <= 'Z'" 
hash = hash * 147 + *src; 

SrC++， 

} 


// look for existing identifier, linear search 

current_id = symbols; 

while (current_id[Token]) { 

if (current_id[Hash] == hash && !memcmp((char *)current_id[Name], - 
//found one, return 

token = current id[Token]; 

return, 

} 

current_id = current_id + IdSize; 


} 


// store new ID 

current_id[Name] = (int)last_pos; 
current_id[Hash] = hash; 

token = current_id[Token] = Id; 
return, 





查找 已 有 标识 符 的 方法 是 线性 查找 symbols #° 


数字 


数字 中 较为 复杂 的 一 点 是 需要 支持 十 进 制 、 十 六 进 制 及 八进制 。 逻 辑 也 较为 直接 ， 
可 能 唯一 不 好 理解 的 是 获取 十 六 进 制 的 值 相关 的 代码 。 


token val = token val * 16 + (token & 16) + (token >= 'A' ? 9: 0), 
‘| | 


这 里 要 注意 的 是 在 ASCII 码 中 ， 字 符 a 对 应 的 十 六 进 制 值 是 61, AA 41 ， 故 
通过 (token & 16) 可 以 得 到 个 位 数 的 值 。 其 它 就 不 多 说 了 ， 这 里 这 样 写 的 目的 


J 


KB (HEE CA 的 源 代 码 的 ) 。 
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void next() { 


else if (token >= '0' && token <= '9') { 

// parse number, three kinds: dec(123) hex(0x123) oct(017) 
token_val = token - '0'; 

if (token_val > 0) { 

// dec, starts with [1-9] 

while (*src >= 'O' && *src <= '9') { 


token_val = token_val*10 + *srct++ - '0'; 
} 

} else { 

// starts with number 0 

if (*src == 'x' || *src == 'X') { 

//hex 


token = *++src; 
while ((token >= '0' && token <= '9') || (token >= 'a' && token <= 
token val = token val * 16 + (token & 15) + (token >= 'A' ? 9 : 0)， 
token = *++src; 


} 

} else { 

// oct 

while (*src >= '0' && *sre <= '7') { 
token_val = token_val*8 + *srct++ - 'O'; 
} 

} 

} 


token = Num; 
return, 





字符 串 


在 分 析 时 ， 如 果 分 析 到 字符 串 ， 我 们 需要 将 它 存放 到 前 一 篇 文章 中 说 的 data A 
中 。 然 后 返回 它 在 data 段 中 的 地 址 。 另 一 个 特殊 的 地 方 是 我 们 需要 支持 转 义 
符 。 例 如 用 \n 表示 换行 符 。 由 于 本 编译 器 的 目的 是 达到 自己 编译 自己 ， 所 以 代 
码 中 并 没有 支持 除 \n 的 转 义 符 ， 如 t, \r 等 ， 但 仍 支持 Na 表示 字符 a 
的 语法 ， 如 \" 表示 "。 


在 分 析 时 ， 我 们 将 同时 分 析 单个 字符 如 tat 和 字符 囊 如 "a string" 。 若 得 到 


的 是 单个 字符 ， 我 们 以 Num 的 形式 返回 。 相 关 代码 如 下 : 
void next() { 


else if (token == '"' || token == '\'') { 

// parse string literal, currently, the only supported escape 
// character is '\n', store the string literal into data. 
last_pos = data; 


while (*src != © && *src != token) { 
token_val = *src++; 
if (token_val == '\\') { 


// escape character 
token val = *src++; 

if (token val == 'n') { 
token val = '\n'; 

} 

} 


if (token == '"') { 
*data++ = token val; 
} 
} 


SrC++， 

// if it is a single character, return Num token 
if (token == '"') { 

token_val = (int)last_pos; 

} else { 

token = Num; 


} 


return, 


} 
} 


注释 


在 我 们 的 C 语言 中 ， 只 支持 // 类 型 的 注释 ， 不 支持 /* comments */ Wik 


void next() { 


else if (token == '/') { 

if (*src == '/') { 

// skip comments 

while (*src != © && *src != '\n') { 
二 SIC 

} 

} else { 


// divide operator 
token = Div; 
return, 


} 
} 


这 里 我 们 要 额外 介绍 lookahead 的 概念 ， 即 提前 看 多 个 字符 。 上 述 代码 中 我 们 
看 到 ， 除 了 跳 过 注释 ， 我 们 还 可 能 返回 除 号 /(Div) 标记 。 


提前 看 字符 的 原理 是 : 有 一 个 或 多 个 标记 是 以 同样 的 字符 开头 的 (如 本 小 节 中 的 注 
释 与 除 号 ) ， 因 此 只 赁 当前 的 字符 我 们 并 无 法 确定 具体 应 该 解释 成 哪 一 个 标记 ， 所 
以 只 能 再 向 前 查看 字符 ， 如 本 例 需 向 前 查看 一 个 字符 ， 若 是 / 则 说 明 是 注释 ， 反 
之 则 是 除 号 。 


我 们 之 前 说 过 ， 词 法 分 析 器 本 质 上 也 是 编译 器 ， 其 实 提前 看 字符 的 概念 也 存在 于 纺 
译 器 ， 只 是 这 时 就 是 提前 看 k 个 “标记 ”而 不 是 “字符 "了 。 平 时 听 到 的 LL(k) 中 的 
k 就 是 需要 向 前 看 的 标记 的 个 数 了 。 


另外 ， 我 们 用 词法 分 析 器 将 源码 转换 成 标记 流 ， 能 减 小 语法 分 析 复杂 度 ， 原 因 之 一 
就 是 减少 了 语法 分 析 器 需要 “向 前 看 "的 字符 个 数 。 


其 它 
其 它 的 标记 的 解析 就 相对 容易 一 些 了 ， 我 们 直接 贴 上 代码 : 


void next() { 


else if (token == '=') { 
// parse '==' and '="' 

if (*src == '=') { 

SGG att, 

token = Eq; 

} else { 

token = Assign; 


} 


return, 


else if (token == '+') 
// parse '+' and '++' 
if (*src == '+') { 


src ++; 
token = Inc; 
} else { 
token = Add; 
} 


return, 


else if (token == '-') 
// parse '-' and '--' 


EPES == 


SEG +f: 
token = Dec; 
} else { 
token = Sub; 
} 


return, 


at 


else if (token == '!') 


// parse '!=' 


if (*sre == '=') { 


SrC++， 
token = Ne; 


} 


return, 


else if (token == '<') { 


// parse '<=', 


Ven! 


if (*sre == '=') { 


SEGERS 
token = Le; 


or 


} else if (*src == '<') { 


src ++; 
token = Shl; 
} else { 
token = Lt; 
} 


return, 


else if (token 
// parse '>=', 


== ra) { 


vss! 


if (*sre == '=') { 


src ++; 
token = Ge; 


or 


US 


} else if (*src == '>') { 


SEG tE; 
token = Shr; 
} else { 
token = Gt; 


} 


return, 


else if (token == '|') { 
// parse '|' or "| |’ 

af (*sre == "|") £ 

src ++; 

token = Lor; 

} else { 

token = Or; 

} 


return, 


} 

else if (token == '&') { 
// parse '&' and '&&' 

if (*src == '&') { 

src ++; 

token = Lan; 

} else { 

token = And; 

} 

return; 

} 

else if (token == 'A') { 
token = Xor; 

return; 

} 

else if (token == '%') { 
token = Mod; 

return, 

} 

else if (token == '*') { 
token = Mul; 

return, 

} 

else if (token == '[') { 
token = Brak; 

return; 

} 

else if (token == '?') { 
token = Cond; 

return; 

} 

else if (token == '~' || token == ';' || token == '{' || token == 
// directly return the character as token; 
return; 


} 











代码 较 多 ， 但 主要 逻辑 就 是 向 前 看 一 个 字符 来 确定 真正 的 标记 。 


关键 字 与 内 置 函数 


虽然 上 面 写 完了 词法 分 析 器 ， 但 还 有 一 个 问题 需要 考虑 ， 那 就 是 “关键 字 ”， 例 如 
if , while , return 等 。 它 们 不 能 被 作为 普通 的 标识 符 ， 因 为 有 特殊 的 含义 。 


一 般 有 两 种 处 理 方法 : 
1. 词法 分 析 器 中 直接 解析 这 些 关键 字 。 
2. 在 语法 分 析 前 将 关键 字 提 前 加 入 符号 表 。 
这 里 我 们 就 采用 第 二 种 方法 ， 将 它们 加 入 符号 表 ， 并 提前 为 它们 赋予 必 要 的 信息 
(还 记得 前 面 说 的 标识 符 Token FRY?) 。 这 样 当 源 代码 中 出 现 关键 字 时 ， 它 
们 会 被 解析 成 标识 符 ， 但 由 于 符号 表 中 已 经 有 了 相关 的 信息 ， 我 们 就 能 知道 它们 是 
特殊 的 关键 字 。 
内 置 亟 数 的 行为 也 和 关键 字 类 似 ， 不 同 的 只 是 赋值 的 信息 ， 在 main 函数 中 进行 初 
始 化 如 下 : 


// types of variable/function 
enum { CHAR, INT, PTR }; 
int *idmain; // the ‘main’ function 


void main() { 


src = "char else enum if int return sizeof while " 
"open read close printf malloc memset memcmp exit void main"; 


// add keywords to symbol table 
1 = Char; 

while (i <= While) { 

next(); 

current_id[Token] = i++; 


} 


// add library to symbol table 
i = OPEN; 

while (i <= EXIT) { 

next(); 

current_id[Class] = Sys; 
current_id[Type] = INT; 
current_id[Value] = i++; 


} 


next(); current_id[Token] = Char; // handle void type 
next(); idmain = current_id; // keep track of main 


program(); 


} 


代码 


本 章 的 代码 可 以 在 Github 上 下 载 ， 也 可 以 直接 clone 


git clone -b step-2 https://github.com/lotabout/write-a-C-interpret 





上 面 的 代码 运行 后 会 出 现 ‘Segmentation Falt， 这 是 正常 的 ， 因 为 它 会 尝试 运行 我 
们 上 一 章 创建 的 虚拟 机 ， 但 其 中 并 没有 任何 汇编 代码 。 


本 章 我 们 为 我 们 的 编译 器 构建 了 词法 分 析 器 ， 通 过 本 章 的 学 习 ， 我 认为 有 几 个 要 点 
需要 强调 : 


1. 词法 分 析 器 的 作用 是 对 源码 字符 串 进 行 预 处 理 ， 作 用 是 减 小 语法 分 析 器 的 复杂 
程度 。 

2. 词法 分 析 器 本 身 可 以 认为 是 一 个 编译 器 ， 输 入 是 源码 ， 输 出 是 标记 流 。 

3. lookahead(k) 的 概念 ， 即 向 前 看 k 个 字符 或 标记 。 

4. 词法 分 析 中 如 何 处 理 标识 符 与 符号 表 。 


下 一 章 中 ， 我 们 将 介绍 递归 下 降 的 语法 分 析 器 。 我 们 下 一 章 见 


手把手 教 你 做 一 个 C 语言 编译 器 (4) : 递归 下 降 


本 章 我 们 将 讲解 递归 下 降 的 方法 ， 并 用 它 完成 一 个 基本 的 四 则 运算 的 语法 分 析 器 。 
本 系列 : 

. 手把手 教 你 做 一 个 C 语言 编译 器 (0) : WS 
.手把手 教 你 做 一 个 C 语言 编译 器 (1) :设计 

. 手把手 教 你 做 一 个 C 语言 编译 器 (2) : 虚拟 机 
. 手把手 教 你 做 一 个 C 语言 编译 器 (3) : 词法 分 析 器 


人 ON 一 


什么 是 递归 下 降 


传统 上 ， 编 写 语法 分 析 器 有 两 种 方法 ， 一 种 是 自 顶 向 下 ， 一 种 是 自 底 自 上 。 自 顶 向 
下 是 从 起 始 非 终 结 符 开始 ， 不 断 地 对 非 终结 符 进行 分 解 ， 直 到 匹配 输入 的 终结 符 ; 
自 底 向 上 是 不 断 地 将 终结 符 进行 合并 ， 直 到 合并 成 起 始 的 非 终 结 符 。 


其 中 的 自 顶 向 下 方法 就 是 我 们 所 说 的 递归 下 降 。 
终结 符 与 非 终 结 符 
没有 学 过 编译 原理 的 话 可 能 并 不 知道 什么 是 “终结 符 ”"，“ 非 终结 符 ”。 这 里 我 简单 介绍 


一 下 。 首 先是 BNE 范式 ， 就 是 一 种 用 来 描述 语法 的 语言 ， 例 如 ， 四 则 运算 的 规则 
可 以 表示 如 下 : 


<expr> ::= <expr> + <term> 
| <expr> - <term> 
| <term> 
<term> ::= <term> * <factor> 
| <term> / <factor> 
| <factor> 
<factor> ::= ( <expr> ) 
| Num 
AREF &lt;&gt; 括 起 来 的 就 称 作 非 终 结 符 ， 因 为 它们 可 以 用 ::= 右 侧 的 


式 子 代替 。 | 表示 选择 ， 如 &lt;expr&gt; 可 以 是 

&lt;expr&gt; + &lt;term&gt; ` &lt;expr&gt; - &lt;term&gt; 或 
&lt;termagt; 中 的 一 种 。 而 没有 出 现在 ::= 左边 的 就 称 作 终结 符 ， 一 般 终结 
符 对 应 于 词法 分 析 器 输出 的 标记 。 


四 则 运算 的 递归 下 降 


例如 ， 我 们 对 3 * (4 + 2) 进行 语法 分 析 。 我 们 假设 词法 分 析 器 已 经 正确 地 将 
其 中 的 数字 识别 成 了 标记 Num 。 


递归 下 降 是 从 起 始 的 非 终 结 符 开 始 (TR) ， 本 例 中 是 &lt;expr&gt; ， 实 际 中 可 
以 自己 指定 ， 不 指定 的 话 一 般 认为 是 第 一 个 出 现 的 非 终结 符 。 


1\. <expr> => <expr> 

ON => <term> * <factor> 

3\. => <factor> | 

4\. => Num (3) | 

BN: => ( <expr> ) 

6\. => <expr> + <term> 
TX. => <term> | 

8\. => <factor> | 

9\. => Num (4) | 

10\. => <fac 
INe => | 





可 以 看 到 ， 整 个 解析 的 过 程 是 在 不 断 对 非 终结 符 进 行 替换 (AT) ， 直 到 遇见 了 终 
Ei (R) 。 而 我 们 可 以 从 解析 的 过 程 中 看 出 ， 一 些 非 终结 符 


如 &lt;expr&gt; 被 递归 地 使 用 了 。 


为 什么 选择 递归 下 降 


从 上 小 节 对 四 则 运算 的 递归 下 降解 析 可 以 看 出 ， 整 个 解析 的 过 程 和 语法 的 BNF 表 
示 是 二 分 接近 的 ， 更 为 重要 的 是 ， 我 们 可 以 很 容易 地 直接 将 BNF 表示 转换 成 实际 
的 代码 。 方 法 是 为 每 个 产生 式 (BP 非 终结 符 ::= ... ) 生成 一 个 同名 的 函数 。 


这 里 会 有 一 个 疑问 ， 就 是 上 例 中 ， 当 一 个 终结 符 有 多 个 选择 时 ， 如 何 确 定 具体 选择 
哪 一 个 2 如 为 什么 用 &lt;expr&gt; ::= &lt;term&gt; * &lt;factor&gt; 而 
不 是 &lt;expr&gt; ::= &lt;term&gt; / &lt;factor&égt; ?这 就 用 到 了 上 一 
章 中 提 到 的 “向 前 看 k 个 标记 "的 概念 了 。 我 们 向 前 看 一 个 标记 ， 发 现 是 * ， 而 这 
个 标记 足够 让 我 们 确定 用 哪个 表达 式 了 。 


另外 ， 递 归 下 下 降 方 法 对 BNF 方法 本 身 有 一 定 的 要 求 ， 否 则 会 有 一 些 问 题 ， 如 经 
典 的 " 左 递 归 " 问 题 。 


左 递归 


原则 上 我 们 是 不 讲 这 么 深入 ， 但 我 们 上 面 的 四 则 运算 的 文法 就 是 左 递 归 的 ， 而 左 递 
归 的 语法 是 没 法 直接 使 用 递归 下 降 的 方法 实现 的 。 因 此 我 们 要 消除 左 递 归 ， 消 除 后 
的 文法 如 下 : 


<expr> ::= <term> <expr_tail> 


<expr_tail> ::= + <term> <expr_tail> 

| - <term> <expr_tail> 

| <empty> 

<term> ::= <factor> <term_tail> 
<term_tail> ::= * <factor> <term_tail> 
| / <factor> <term_tail> 

| <empty> 

<factor> ::= ( <expr> ) 

| Num 


消除 左 递归 的 相关 方法 ， 这 里 不 再 多 说 ， 请 自行 查阅 相关 的 资料 。 


四 则 运算 的 实现 


本 节 中 我 们 专注 语法 分 析 器 部 分 的 实现 ， 具 体 实现 很 容易 ， 我 们 直接 贴 上 代码 ， 就 
是 上 述 的 消除 左 递归 后 的 文法 直接 转换 而 来 的 : 


int expr(); 


int factor() { 

int value = 0; 

if (token == '(') { 
match('('); 

value = expr(); 
match(')'); 

} else { 

value = token_val; 
match(Num); 

} 


return value; 


} 


int term_tail(int lvalue) { 
if (token == '*') £ 
match( * "D5 

int value = lvalue * factor(); 
return term tail(value); 

} else if (token == '/') { 
match('/'); 

int value = lvalue / factor(); 
return term tail(value); 

} else { 

return lvalue; 

} 

} 


int term() { 
int lvalue = factor(); 
return term tail(lvalue); 


} 
int expr_tail(int lvalue) { 
if (token == '+') { 


match('+'); 

int value = lvalue + term(); 
return expr_tail(value); 

} else if (token == '-') { 
match('-'); 

int value = lvalue - term(); 
return expr_tail(value); 

} else { 

return lvalue; 

} 

} 


int expr() { 
int lvalue = term(); 
return expr_tail(lvalue); 


} 


可 以 看 到 ， 有 了 BNF 方 法 后 ， 采 用 递归 向 下 的 方法 来 实现 编译 器 是 很 直观 的 。 
我 们 把 词法 分 析 器 的 代码 一 并 贴 上 : 


#include <stdio.h> 
#include <stdlib.h> 


enum {Num}; 

int token; 

int token_val; 
char *line = NULL; 
char *src = NULL; 


void next() { 

// skip white space 

while (*src == ' ' || *src == '\t') { 
Src +4; 


} 
token = *src++; 


if (token >= 'O' && token <= '9' ) { 
token_val = token - '0'; 
token = Num; 


while (*src >= '0' && *src <= '9') { 
token val = token_val*10 + *src - '0'; 
Src ++; 

} 

return, 

} 

} 


void match(int tk) { 

if (token != tk) { 

printf("expected token: %d(%c), got: %d(%c)\n", tk, tk, token, toke 
exit(-1); 

} 


next(); 





int main(int argc, char *argv[]) 


size_t linecap = 0; 

ssize_t linelen; 

while ((linelen = getline(&line, &linecap, stdin)) > 0) { 
src = line; 

next(); 

printf("%d\n", expr()); 

} 


return 0; 


本 章 中 我 们 介绍 了 递归 下 降 的 方法 ， 并 用 它 来 实现 了 四 则 运算 的 语法 分 析 器 。 


析 器 编写 。 

同时 我 们 也 用 实例 看 到 了 理论 (BNF 语法 ， 左 递归 的 消除 ) 是 如 何 帮 助 我 们 的 工程 
实现 的 。 尽 管理 论 不 是 必需 的 ， 但 如 果 能 掌握 它 ， 对 于 提高 我 们 的 水 平 还 是 很 有 帮 
助 的 。 


手把手 教 你 做 一 个 C 语言 编译 器 (5) : 变量 定义 


本 章 中 我 们 用 EBNF 来 大 致 描述 我 们 实现 的 C 语言 的 文法 ， 并 实现 其 中 解析 变量 
定义 部 分 


由 于 语法 分 析 本 身 比 较 复杂 ， 所 以 我 们 将 它 拆 分 成 3 个 部 分 进行 讲解 ， 分 别 是 : 变 
量 定 义 、 函 数 定义 、 表 达 式 。 


本 系列 : 


手把手 教 你 做 一 个 C 语言 编译 器 
手把手 教 你 做 一 个 C 语言 编译 器 
手把手 教 你 做 一 个 C 语言 编译 器 
手把手 教 你 做 一 个 C 语言 编译 器 
手把手 教 你 做 一 个 C 语言 编译 器 


(0) : 前 言 

(1) :设计 

(2) :虚拟 机 
(3) 5 词法 TH R 
(4) tapie 


ans SAR af sds GA 


SONS 


EBNF 表示 


EBNF 是 对 前 一 章 提 到 的 BNF 的 扩展 ， 它 的 语法 更 容易 理解 ， 实 现 起 来 也 更 直 
观 。 但 中 正 看 起 来 还 是 很 烦 ， 如 果 不 想 看 可 以 跳 过 。 


program ::= {global_declaration}+ 

global_declaration ::= enum_decl | variable_decl | function_decl 
enum_decl ::= 'enum' [id] '{' id ['=' 'num'] {',' id ['=' 'num'} '" 
Variable deel ::= type {'*'} id { ',' {'*'} id } ';' 

function decl ::= type {'*'} id '(' parameter_decl ')' '{' body de 
parameter_decl ::= type {'*'} id {',' type {'*'} id} 

body decl ::= {variable decl}, {statement} 

statement ::= non empty statement | empty statement 

non_empty statement ::= if statement | while statement | '{' stater 


| ‘return! expression | expression '; 
if statement ::= 'if' '(' expression ')' statement ['else' non _empi 


while statement ::= ‘while! '(' expression ')' non empty statement 


| = a 








其 中 expression 相关 的 内 容 我 们 放 到 后 面 解释 ， 主 要 原因 是 我 们 的 语言 不 支持 
跨 函 数 北 归 ， 而 为 了 实现 自 举 ， 实 际 上 我 们 也 不 外 EE 使 用 递归 ( 亏 我 们 说 了 一 章 的 递 
归 下 降 ) 。 


PS. 我 是 先 写 程序 再 总 结 上 面 的 文法 ， 所 以 实际 上 它们 间 的 对 应 关系 并 不 是 特别 明 


解析 变量 的 定义 
本 章 要 讲解 的 就 是 上 节 文 法 中 的 enum decl 和 variable decl 部 分 。 


program() 


首先 是 之 前 定义 过 的 program 函数 ， 将 它 改 成 : 


void program() { 

// get next token 
next(); 

while (token > 0) { 
global_declaration(); 
} 

} 


我 知道 global declaration 咏 数 还 没有 出 现 过 ， 但 没有 关系 ， 采 用 自 顶 向 下 的 
编写 方法 就 是 要 不 断 地 实现 我 们 需要 的 内 容 。 下 面 是 global declaration 函数 
的 内 容 : 


global_declaration() 


即 全 局 的 定义 语句 ， 包 括 变量 定义 ， 类 型 定义 (只 支持 枚 举 ) 及 函数 定义 。 代 码 如 
TF: 


int basetype; // the type of a declaration, make it global for con 
int expr_type; // the type of an expression 


void global_declaration() { 


// global declaration ::= enum_decl | variable_decl | function dec. 
7 enum_decl ::= 'enum' [id] '{' id ['=' 'num'] {',' id ['=' ‘num! 
variable decl ::= type {'*'} id { ',' {'*'} id } ';' 

function decl ::= type {'*'} id '(' parameter_decl ')' '{' body 


int type; // tmp, actual type for variable 
int i; // tmp 


basetype = INT; 


// parse enum, this should be treated alone. 
if (token == Enum) { 

// enum [id] { a = 10, b = 20, ... } 
match(Enum) ; 

if (token != '{') { 

match(Id); // skip the [id] part 


} 

if (token == '{') { 

// parse the assign part 
match('{'); 

enum declaration( ); 
match('}'); 


match(';'); 
return, 


} 


// parse type information 
if (token == Int) { 
match(Int); 


} 

else if (token == Char) { 
match(Char); 

basetype = CHAR; 


} 


// parse the comma seperated variable declaration. 
while (token != ';' && token != '}') { 

type = basetype; 

// parse pointer type, note that there may exist “int ****x;~ 
while (token == Mul) { 
match(Mul); 

type = type + PTR; 

} 


if (token != Id) { 

// invalid declaration 

printf("%d: bad global declaration\n", line); 
exit(-1); 

} 

if (current_id[Class]) { 

// identifier exists 

printf("%d: duplicate global declaration\n", line); 
exit(-1); 


} 
match(Id); 
current_id[Type] = type; 


if (token == '(') { 


current_id[Class] = Fun; 

current_id[Value] = (int)(text + 1); // the memory address of funci 
function declaration(); 

} else { 

// variable declaration 

current id[Class] = Glo; // global variable 

current _id[Value] = (int)data; // assign memory address 

data = data + sizeof (int); 


} 


if (token == ',') { 
match(','); 

} 

} 


next(); 


二 R 
看 了 上 面 的 代码 ， 能 大 概 理解 吗 ? 这 里 我 们 讲解 其 中 的 一 些 细 节 。 


向 前 看 标记 : 其 中 的 if (token == xxx) 语句 就 是 用 来 向 前 查看 标记 以 确定 使 

用 哪 一 个 产生 式 ， 例 如 只 要 遇 到 enum 我 们 就 知道 是 需要 解析 枚 举 类 型 。 are 

只 解析 到 类 型 ， 如 int identifier 时 我 们 并 不 能 确定 identifier 是 一 个 

通 的 变量 还 是 一 个 函数 ， 所 以 还 需要 继续 查看 后 续 的 标记 ， 如 果 遇 到 ( eas 
是 函数 了 ， 反 之 则 是 变量 。 


变量 类 型 的 表示 : 我 们 的 编译 器 支持 指针 类 型 ， 那 意味 着 也 支持 指针 的 指针 ， 如 
int **data; 。 那 么 我 们 如 何 表示 指针 类 型 呢 ? 前 文中 我 们 定义 了 支持 的 类 型 : 





// types of variable/function 
enum { CHAR, INT, PTR }; 


所 以 一 个 类 型 首先 有 基本 类 型 ， 如 CHAR 或 INT ， 当 它 是 一 个 指向 基本 类 型 的 
指针 时 ， 如 int *data ， 我 们 就 将 它 的 类 型 如 上 PTR 即 代码 中 
的 : type = type + PTR; 。 同 理 ， 如 果 是 指针 的 指针 ， 则 再 加 上 PTR e 


enum_declaration() 


用 于 解析 枚 举 类 型 的 定义 。 主要 的 多 辑 用 于 解析 用 MES ( ，) 分 隔 的 变量 ， 值 得 
注意 的 是 在 编译 器 中 如 何 保 存 枚 举 变量 的 信息 。 


即 我 们 将 该 变量 的 类 别 设置 成 了 Num ， 这 
节 中 ， 正 常 的 全 局 变量 的 类 别 则 是 Glo ， 
expression 会 使 用 到 。 


就 成 了 全 局 的 常量 了 ， 而 注意 到 上 
信息 在 后 面 章节 中 解析 


eo 


HEE 
RH! 


void enum_declaration() { 

// parse enum [id] { a=1, b = 3, ...} 

WE ae 

i = 0; 

while (token != '}') { 

if (token != Id) { 

printf("%d: bad enum identifier %d\n", line, token); 
exit(-1); 

} 

next(); 

if (token == Assign) { 

// like {a=10} 

next(); 

if (token != Num) { 

printf("%d: bad enum initializer\n", line); 
exit(-1); 

} 

i = token_val; 

next(); 


} 


current_id[Class] = Num; 
current_id[Type] = INT; 
current_id[Value] = i++; 


if (token == ',') { 
next(); 

} 

} 

} 


其 中 的 function declaration 有 子 数 我 们 将 放 到 下 一 章 中 讲解 。 match 
一 个 辅助 函数 : 


void match(int tk) { 

if (token == tk) { 

next(); 

} else { 

printf("%d: expected token: %d\n", line, tk); 
exit(-1); 


EH next 函数 包装 起 来 ， 如 果 不 是 预期 的 标记 则 报错 并 退出 。 


代码 

本 章 的 代码 可 以 在 Github 上 下 载 ， 也 可 以 直接 clone 
git clone -b step-3 https://github.com/lotabout/write-a-C-interpret 

a per 


本 章 的 代码 还 无 法 正常 运行 ， 因 为 还 有 许多 功能 没有 实现 ， 但 如 果 有 兴趣 的 话 ， 可 
以 自己 先 试 着 去 实现 它 。 








本 章 的 内 容 应 该 不 难 ， 除 了 开头 的 EBNF 表达 式 可 能 相对 不 好 理解 一 些 ， 但 如 果 你 
查看 了 EBNF 的 具体 表示 方法 后 就 不 难 理解 了 。 


剩 下 的 内 容 就 是 按部就班 地 将 EBNF 的 产生 式 转换 成 函数 的 过 程 ， 如 果 你 理解 了 上 
一 章 中 的 内 容 ， 相 信 这 部 分 也 不 难 理解 。 


下 一 章 中 我 们 将 介绍 如 何 解析 函数 的 定义 ， 敦 请 期 待 。 


手把手 教 你 做 一 个 C 语言 编译 器 (6) : 函数 定义 
由 于 语法 分 析 本 身 比 较 复 杂 ， 所 以 我 们 将 它 拆 分 成 3 个 部 分 进行 i 
量 定义 、 函 数 定 义 、 表 达 式 。 本 章 讲解 函数 定义 相关 的 内 容 。 
本 系列 : 


手把手 教 你 做 一 个 C 语言 编译 器 ( 
手把手 教 你 做 一 个 C 语言 编译 器 ( 
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EBNF 表示 


这 是 上 一 章 的 EBNF 方法 中 与 函数 定义 相关 的 内 容 。 


variable_decl ::= type {'*'} idf {'*"} id } ';' 


function decl ::= type {'*'} id '(' parameter_decl ')' '{' body dec 


parameter_decl ::= type {'*'} id {',' type {'*'} id} 
body_decl ::= {variable decl}, {statement} 


statement ::= non empty statement | empty_statement 


non_empty_statement ::= if statement | while statement | '{' stater 


| 'return' expression | expression ';' 


if statement ::= 'if' '(' expression ')' statement ['else' non_empt 


while statement ::= 'while' '(' expression ')' non empty statement 


Aoo ëR 


解析 函数 的 定义 


一 章 的 代码 中 ， 我 们 已 经 知道 了 什么 时 候 开 始 解析 函数 的 定义 ， 相 关 的 代码 如 


aie 





if (token == '(') { 

current_id[Class] = Fun; 

current_id[Value] = (int)(text + 1); // the memory address of funci 
function declaration(); 

} else { 








即 在 这 断代 码 之 前 ， 我 们 已 经 为 当前 的 标识 符 (identifier) 设置 了 正确 的 类 型 ， 上 
面 这 断代 码 为 当前 的 标识 符 设 置 了 正确 的 类 别 (Fun) ， 以 及 该 函数 在 代码 段 (text 
segment) 中 的 位 置 。 接 下 来 开始 解析 函数 定义 相关 的 内 容 : parameter_decl 

及 body decl 。 


函数 参数 与 汇编 代码 


现在 我 们 要 回忆 如 何 将 "函数 "转换 成 对 应 的 汇编 代码 ， 因 为 这 决定 了 在 解析 时 我 们 
需要 哪些 相关 的 信息 。 考 虑 下 列 函 数 : 


int demo(int param_a, int *param_b) { 
int local_1; 
char local_2; 


那么 它 应 该 被 转换 成 什么 样 的 汇编 代码 呢 ? 在 思考 这 个 问题 之 前 ， 我 们 需要 了 解 当 
demo 函数 被 调用 时 ， 计 算 机 的 栈 的 状态 ， 如 下 (参照 第 三 章 讲解 的 虚拟 机 ) 


| eee | high address 


boogvcaosspsesag + 
| arg: param a | new bp + 3 
二 十 

| arg: param_b | new_bp + 2 
hoossedosesssegse + 

|return address | new bp + 1 
站 十 

| old BP | <- new BP 
onan + 

| local 1 | new_ bp - 1 
站 十 

| local_2 | new_ bp - 2 
dnd + 


| ene | low address 


这 里 最 为 重要 的 一 点 是 ， 无 论 是 函数 的 参数 (de parama ) 还 是 函数 的 局 部 变量 
(de local 1 ) 都 是 存放 在 计算 机 的 栈 上 的 。 因 此 ， 与 存放 在 数据 段 中 的 全 局 
变量 不 同 ， 在 函数 内 访问 它们 是 通过 new bp 指针 和 对 应 的 位 移 量 进行 的 。 
此 ， 在 解析 的 过 程 中 ， 我 们 需要 知道 参数 的 个 数 ， 各 个 参数 的 位 移 量 。 


函数 定义 的 解析 
这 相当 于 是 整个 函数 定义 的 语法 解析 的 框架 ， 代 码 如 下 : 


void function_declaration() { 
// type func_name (...) {.-.} 
// | this part 


match('('); 

function_parameter(); 

match(')'); 

match('{'); 

function body(); 

//match('}'); // © 


// © 

// unwind local variable declarations for all local variables. 
current_id = symbols; 

while (current_id[Token]) { 

if (current_id[Class] == Loc) { 

current_id[Class] = current_id[BClass]; 

current_id[Type ] current_id[BType]; 

current_id[Value] current_id[BValue]; 


current_id = current_id + IdSize; 
} 
} 


其 中 国 中 我 们 没有 消耗 最 后 的 } 字符 。 这 么 做 的 原因 是 : variable decl 5 
function_decl 是 放 在 一 起 解析 的 ， 而 variable decl 是 以 字符 ; 结束 

的 。 而 function_decl 是 以 字符 } 结束 的 ， 若 在 此 通过 match WHT F 
符 ， 那 么 外 层 的 while 循环 就 没 法 准确 地 知道 函数 定义 已 经 结束 。 所 以 我 们 将 结 
束 符 的 解析 放 在 了 外 层 的 while 循环 中 。 

而 @ 中 的 代码 是 用 于 将 符号 表 中 的 信息 恢复 成 全 局 的 信息 。 这 是 因为 ， 局 部 变量 是 
可 以 和 全 局 变量 同名 的 ， 一 旦 同名 ， 在 防 数 体内 局 部 变量 就 会 覆盖 全 局 变量 ， 出 了 
函数 体 ， 全 局 变量 就 恢复 了 原先 的 作用 。 这 上 段 代码 线 性 地 遍历 所 有 标识 符 ， 并 将 保 
存在 BOX 中 的 信息 还 原 。 


解析 参数 


ed 


parameter_decl ::= type {'*'} id {',' type {'*'} id} 


桥 函 数 的 参数 就 是 解析 以 过 号 分 隔 的 一 个 个 标识 符 ， 同 时 记录 它们 的 位 置 与 类 


o 


int index_of_bp; // index of bp pointer on stack 


void function_parameter() { 
int type; 

int params; 

params = 0; 

while (token != ')') { 
// D 


// int name, 

type = INT; 

if (token == Int) { 
match(Int); 

} else if (token == Char) { 
type = CHAR; 

match(Char); 

} 


// pointer type 

while (token == Mul) { 
match(Mul); 

type = type + PTR; 

} 


// parameter name 

if (token != Id) { 

printf("%d: bad parameter declaration\n", line); 
exit(-1); 

} 

if (current_id[Class] == Loc) { 

printf("%d: duplicate parameter declaration\n", line); 
exit(-1); 

} 


match(Id); 


//© 

// store the local variable 

current_id[BClass] current_id[Class]; current_id[Class] 
current_id[BType] current_id[Type]; current_id[Type] 
current_id[BValue] current_id[Value]; current_id[Value] 


if (token == ',') { 
match(','); 

} 

} 


// ® 


index of bp = params+1; 


} 





Loc; 


type; 
param: 





量 定义 的 解析 十 分 一 样 ， 用 于 解析 该 参数 的 类 型 。 


变 
而 @ 则 与 上 节 中 提 到 的 “局 部 变量 禾 盖 全 局 变量 "相关 ， 先 将 全 局 变量 的 信息 保存 
(无 论 是 是 否 丨 的 在 全 局 中 用 到 vers 在 BO Po HR EA ee HK 
的 信息 ， 如 Value 中 存放 的 是 参数 的 位 置 (是 第 几 个 参数 ) © 


@ 则 与 汇编 代码 的 生成 有 关 ， index_of_bp 就 是 前 文 提 到 的 new bp 的 位 置 。 


其 中 @ 与 全 局 


By BK A AR AT 


我 们 实现 的 C 语言 与 现代 的 C 语言 不 太一 致 ， 我 们 需要 所 有 的 变量 定义 出 现在 所 
有 的 语 名 之前。 函数 体 的 代码 如 下 


void function_body() { 
// type func_name (...) {.-.} 
// -->| |<-- 


Jog 4 
// 1\. local declarations 
// 2\. statements 


// } 

int pos_local; // position of local variables on the stack. 
int type; 

pos_local = index_of_bp; 

// D 


while (token == Int || token == Char) { 

// local variable declaration, just like global ones. 
basetype = (token == Int) ? INT : CHAR; 

match(token); 


while (token != ';') { 
type = basetype; 

while (token == Mul) { 
match(Mul); 

type = type + PTR; 

} 


if (token != Id) { 

// invalid declaration 

printf("%d: bad local declaration\n", line); 
exit(-1); 


if (current_id[Class]) { 

// identifier exists 

printf("%d: duplicate local declaration\n", line); 
exit(-1); 


match(Id); 


// store the local variable 


current_id[BClass] = current_id[Class]; current_id[Class] = Loc; 
current_id[BType] = current_id[Type]; current_id[Type] = type; 
current_id[BValue] = current_id[Value]; current_id[Value] = ++pos_ 
if (token == ',') { 

match(','); 

} 

match(';'); 

} 

// @ 

// save the stack size for local variables 

*++text = ENT; 

*++text = pos_local - index_of_bp; 


// statements 
while (token != '}') { 
statement(); 


} 


// emit code for leaving the sub function 
*++text = LEV; 
} 


县 
其 中 避 用 于 解析 函数 体内 的 局 部 变量 的 定义 ， 代 码 与 全 局 的 变量 定义 几乎 一 样 。 


而 @ 则 | 用 于 生成 汇编 代码 ， 我 们 在 第 三 章 的 虚拟 机 中 提 到 过 ， 我 们 需要 在 栈 上 为 局 
部 变量 预 留 空间 ， 这 两 行 代码 起 的 就 是 这 个 作用 。 





代码 
本 章 的 代码 可 以 在 Github 上 下 载 ， 也 可 以 直接 clone 


git clone -b step-4 https://github.com/lotabout/write-a-C-interpret 





本 章 的 代码 依 昌 无 法 运行 ， 还 有 两 个 重要 函数 没有 完成 : statement 及 
expression ， 感 兴趣 的 话 可 以 尝试 自己 实现 它们 。 


中 我 们 用 了 不 多 5 的 代码 完成 了 AE LAT FAT 。 大 部 分 的 代码 依旧 是 用 于 解析 
: 参数 和 局 部 变量 ， 而 它们 的 逻辑 和 全 局 变量 的 解析 几乎 一 致 ， 最 大 的 区 别 就 
JF] aj o 


当然 ， 要 理解 函数 定义 的 解析 过 程 ， 最 重要 的 是 理解 我 们 会 为 函数 生成 怎样 的 汇编 
代码 ， 因 为 这 决定 了 我 们 需要 从 解析 中 获取 什么 样 的 信息 (例如 参数 的 位 置 ， 个 数 
F) ， 而 这 些 可 能 需要 你 重新 回顾 一 下 "虚拟 机 "这 一 章 ， 或 是 重新 学 习 学 习 汇 编 相 
关 的 知识 。 


下 一 章 中 我 们 将 讲解 最 复杂 的 表达 式 的 解析 ， 同 时 也 是 整个 编译 器 最 后 的 部 分 ， 履 
请 期 待 。 


手把手 教 你 做 一 个 C 语言 编译 器 (7) : 18 4) 


整个 编译 器 还 剩 下 最 后 两 个 部 分 : 语句 和 表达 式 的 解析 。 它 们 的 内 容 比 较 多 ， 主 要 
涉及 如 何 将 语句 和 表达 式 编译 成 汇编 代码 。 这 章 讲 解 语句 的 解析 ， 相 对 于 表达 式 来 
说 它 还 是 较为 容易 的 。 


本 系列 : 


1. 手把手 教 你 做 一 个 C 语言 编译 器 (0) : WS 

2. 手把手 教 你 做 一 个 C 语言 编译 器 (1) : 设计 

3. 手把手 教 你 做 一 个 C 语言 编译 器 (2) : 虚拟 机 

4. 手把手 教 你 做 一 个 C 语言 编译 器 (3) : 词法 分 析 器 
5. 手把手 教 你 做 一 个 C 语言 编译 器 (4) :递归 下 降 
6. 手把手 教 你 做 一 个 C 语言 编译 器 (5) : 变量 定义 
7. 手把手 教 你 做 一 个 C 语言 编译 器 (6) : 函数 定义 
语句 


C 语言 区 分 “语句 ”(statement) 和 “表达 式 ”(expression) 两 个 概念 。 简 单 地 说 ， 
可 以 认为 语句 就 是 表达 式 加 上 末尾 的 分 号 。 


在 我 们 的 编译 器 中 共识 别 6 种 语句 : 


if (...) &lt;statement&gt; [else &lt;statementé&gt; ] 
while (...) &lt;statement&gt; 

{ &lt;statement&gt; } 

return Xxx; 

&lt;empty statement&gt; ; 

expression; (expression end with semicolon) 


它们 的 语法 分 析 都 相对 容易 ， 重 要 的 是 去 理解 如 何 将 这 些 语 名 编译 成 汇编 代码 ， 下 
面 我 们 逐一 解释 。 


CoS eh > 


IF 语句 
IF 语句 的 作用 是 跳 转 ， 跟 据 条 件 表 达 式 决定 跳 转 的 位 置 。 我 们 看 看 下 面 的 伪 代 码 : 


if (...) <statement> [else <statement>] 


if (<cond>) <cond> 

JZa 

<true_statement> ===> <true_statement> 
else: JMP b 

a: a: 
<false_statement> <false_statement> 
b : b : 


对 应 的 汇编 代码 流程 为 : 


1. 执行 条 件 表达 式 &lt;cond&agt; ° 

2. 如 果 条 件 失 败 ， 则 跳 转 到 a 的 位 置 ， 执 行 else 语句 。 这 里 else 语句 
是 可 以 省 略 的 ， 此 时 a 和 b 都 指向 IF 语句 后 方 的 代码 。 

3. 因为 汇编 代码 是 顺序 排列 的 ， 所 以 如 果 执 行 了 true statement ， 为 了 防止 
因为 顺序 排列 而 执行 了 false statement ， 所 以 需要 无 条 件 跳 转 IMP b 。 


对 应 的 C 代码 如 下 : 


if (token == If) { 

match(If); 

match('('); 

expression(Assign); // parse condition 
match(')'); 


*++text = JZ; 
b = ++text; 


statement(); // parse statement 

if (token == Else) { // parse else 
match(Else); 

// emit code for JMP B 

*b = (int)(text + 3); 

*++text = JMP; 

b = ++text; 


statement(); 


} 


*b = (int)(text + 1); 


While 72 4) 


While 4% 4) FL If 28 6) fa] Bo Et ADI Ao T : 


a: a: 

while (<cond>) <cond> 

JZ b 

<statement> <statement> 
JMP a 

b: b: 


没有 什么 值得 说 明 的 内 容 ， 它 的 C 代码 如 下 : 


else if (token == While) { 
match(While); 


a = text + 1; 


match('('); 
expression(Assign); 
match(')'); 


*++text = JZ; 
b = ++text; 


statement(); 


*++text = JMP; 
*++text = (int)a; 

*b = (int)(text + 1); 
} 


Return 语句 


Return 唯一 特殊 的 地 方 是 : 一 旦 遇 到 了 Return 7% 4) > MARA BRET > A 
以 需要 生成 汇编 代码 LEV 来 表示 退出 。 


else if (token == Return) { 
// return [expression]; 
match(Return) ; 


if (token != ';') { 
expression(Assign); 
} 

match(';'); 


// emit code for return 
*++text = LEV; 
} 


其 它 语句 


其 它 语句 并 不 直接 生成 汇编 代码 ， 所 以 不 多 做 说 明 ， 代 码 如 下 : 


else if (token == '{') { 
// { <statement> ... } 
match('{'); 

while (token != '}') { 


statement(); 


match('}'); 

} 

else if (token == ';') { 

// empty statement 
match(';'); 

else { 

// a = b; or function_call(); 


expression(Assign); 
match(';'); 


代码 
本 章 的 代码 可 以 在 Github 上 下 载 ， 也 可 以 直接 clone 


git clone -b step-5 https://github.com/lotabout/write-a-C-interpret 


HJE 





本 章 的 代码 依旧 无 法 运行 ， 还 剩 最 后 一 部 分 没有 完成 : expression ° 
小 结 


本 章 讲解 了 如 何 将 语句 编译 成 汇编 代码 ， 内 容 相对 容易 一 些 ， 关 键 就 是 去 理解 汇编 
代码 的 执行 原理 。 

同时 值得 一 提 的 是 ， 编 译 器 的 语法 分 析 部 分 其 实 是 很 简单 的 ， 而 丨 正 的 难点 是 如 何 
在 语法 分 析 时 收集 足够 多 的 信息 ， 最 终 把 源 代码 转换 成 目标 代码 (汇编 ) 。 我 认为 
这 也 是 初学 者 实现 编译 器 的 一 大 难点 ， 往 往 比 词法 分 析 / 语 法 分 析 更 困难 。 


所 以 建议 如 果 没 有 学 过 汇编 ， 可 以 学 习 学 习 ， 它 本 身 不 难 ， 但 对 理解 计算 机 的 原理 
有 很 大 帮助 。 


\\ 


手把手 教 你 做 一 个 C 语言 编译 器 (8) RAA 


这 是 整个 编译 器 的 最 后 一 部 分 ， 解 析 表 达 式 。 什 么 是 表达 式 ? 表 达 式 是 将 各 种 语言 
要 素 的 一 个 组 合 ， 用 来 求 值 。 例 如 : 函数 调用 、 变 量 赋值 、 运 算 符 运算 等 等 。 
表达 式 的 解析 难点 有 二 : 一 是 运算 符 的 优先 级 问题 ， 二 是 如 何 将 表达 式 编 译 成 目标 
代码 。 我 们 就 来 逐一 说 明 。 


本 系列 : 


1. 手把手 教 你 做 一 个 C 语言 编译 器 (0) : WS 

2. 手把手 教 你 做 一 个 C 语言 编译 器 (1) : 设计 

3. 手把手 教 你 做 一 个 C 语言 编译 器 (2) : 虚拟 机 

4. 手把手 教 你 做 一 个 C 语言 编译 器 (3) : 词法 分 析 器 
5. 手把手 教 你 做 一 个 C 语言 编译 器 (4) : 递归 下 降 
6. 手把手 教 你 做 一 个 C 语言 编译 器 (5) : 变量 定义 
7. 手把手 教 你 做 一 个 C 语言 编译 器 (6) : 函数 定义 
8. 手把手 教 你 做 一 个 C 语言 编译 器 (7) :语句 


运算 符 的 优先 级 


运 莫 符 的 优先 级 决定 了 表达 式 的 运算 顺序 ， 如 在 普通 的 四 则 运 莫 中 ， 乘 法 * 优先 
级 高 于 加 法 + ， 这 就 意味 着 表达 式 2 + 3 * 4 的 实际 运行 顺序 是 
2+(3*4) 而 不 是 (2 + 3) *4。 


C 语言 定义 了 各 种 表达 式 的 优先 级 ， 可 以 参考 C 语言 运算 符 优先 级 。 


传统 的 编程 书籍 会 用 " 逆 波 兰 式 "实现 四 则 运算 来 讲解 优先 级 问题 。 实 际 上 ， 优 先 级 
关心 的 就 是 哪个 运算 符 先 计算 ， 哪 个 运算 符 后 计算 (毕竟 叫做 “优先 级 " 统 ) 。 而 这 
就 意味 着 我 们 需要 决定 先 为 哪个 运算 符 生成 目标 代码 CLA) ， 因 为 汇编 代码 是 顺 
序 排列 的 ， 我 们 必须 先 计 算 优先 级 高 的 运算 符 。 


那么 如 何 确定 运算 符 的 优先 级 呢 ? 答 日 : 栈 ( 递 归 调 用 的 实质 也 是 栈 的 处 理 ) 。 
举 一 个 例子 : 24+3-4%* 5 ， 它 的 运算 顺序 是 这 样 的 : 


1. 将 2 AR 

2. 遇 到 运算 符 + ， 入 栈 ， 此 时 我 们 期 待 的 是 + 的 另 一 个 参数 

3. 遇 到 数字 3 ， 原 则 上 我 们 需要 立即 计算 243 的 值 ， 但 我 们 不 确定 数字 3 
是 否 属 于 优先 级 更 高 的 运算 符 ， 所 以 先 将 它 入 栈 。 

4. 遇 到 运算 符 - ， 它 的 优先 级 和 + 相同 ， 此 时 判断 参数 3 属于 这 前 的 
+ 。 将 运算 符 + 出 栈 ， 并 将 之 前 的 2 和 3 KRH 2+3 的 结果 ， 
得 到 5 入 栈 。 同 时 将 运算 符 - 入 栈 。 

. BIRF 4 ， 同 样 不 能 确定 是 否 能 立即 计算 ， 入 栈 

. 遇 到 运算 答 “ 优先 级 大 于 - 2 AR 

7. BIRF 5 ， 依 昌 不 能 确定 是 否 立 即 计算 ， 入 栈 


Oo 


8. 表达 式 结 束 ， 运 算 符 出 栈 ， 为 * ， 将 参数 出 栈 ， 计 算 4*5 得 到 结果 20 
入 栈 。 

9. 运算 符 出 栈 ， 为 - HARER?’ HË 5-20 ， 得 到 -15 AR ° 

10. 此 时 运算 符 栈 为 空 ， 因 此 得 到 结果 -15 © 


// after step 1, 2 


Pe + 
| 3 | | | 
Be ey eee + De + 
| 2 | | + | 
EE + de + 


ee + 
| 5 | 

Pe + pee + 
| 4 | | | 
See + De + 
| 5 | | = | 
TEE + Pe + 


Fx ig HF 9 ZAR E 
最 后 注意 的 是 优先 通常 只 与 多 元 运算 符 相 关 ， 单 元 运算 符 往往 没有 这 个 问题 (因为 
只 有 一 个 参数 ) o 也 可 以 认为 “优先 级 "的 实质 就 是 两 个 运算 符 在 抢 参 数 


yo 


/< 


AN 


Snr 
2 


一 元 运 
上 节 中 说 到 了 运算 符 的 优先 级 ， 也 提 到 了 优先 级 一 般 只 与 多 元 运算 符 有 关 ， 这 也 意 
味 着 一 元 运算 符 的 优先 级 总 是 高 于 多 元 运算 符 。 因 为 我 们 需要 先 对 它们 进行 解析 。 
当然 ， 这 部 分 也 将 同时 解析 参数 本 身 (如 变量 、 数 字 、 字 符 串 等 等 ) 。 

关于 表达 式 的 解析 ， 与 语法 分 析 相 关 的 部 分 就 是 上 文 所 说 的 优先 级 问题 了 ， 而 剩 下 


的 较 难 较 烦 的 部 分 是 与 目标 代码 的 生成 有 关 的 。 因 此 对 于 需要 讲解 的 运算 符 ， 我 们 
主要 从 它 的 目标 代码 入 手 。 


Se) 


Wp a 
n E 


首先 是 数字 ， 用 IMM 指令 将 它 加 载 到 AX 中 即 可 : 


if (token == Num) { 
match(Num); 


// emit code 

*++text = IMM; 
*++text = token_val; 
expr_type = INT; 


接着 是 字符 串 常量 。 它 比较 特殊 的 一 点 是 C 语言 的 字符 串 常量 支持 如 下 风格 : 


char *p; 
p = "first line" 
"second line"; 


即 跨行 的 字符 串 拼接 ， 它 相当 于 : 


char *p; 
p = "first linesecond line"; 


所 以 解析 的 时 候 要 注意 这 一 点 : 


else if (token == '"') { 
// emit code 

*++text = IMM; 

*++text = token_val; 


match('"'); 

// store the rest strings 
while (token == '"') { 
match('"'); 

} 


// append the end of string character '', all the data are default 
// to ©, so just move data one position forward. 

data = (char *)(((int)data + sizeof(int)) & (-sizeof(int))); 
expr_type = PTR; 


0 


sizeof 


sizeof 是 一 个 一 元 运算 符 ， 我 们 需要 知道 后 面 参 数 的 类 型 ， 类 型 的 解析 在 前 面 
的 文章 中 我 们 已 经 很 熟悉 了 。 


else if (token == Sizeof) { 

// sizeof is actually an unary operator 

// now only ‘sizeof(int)’, ‘sizeof (char) and ‘sizeof(*...) are 
// supported. 

match(Sizeof); 

match('('); 

expr_type = INT; 


if (token == Int) { 
match(Int); 

} else if (token == Char) { 
match(Char); 

expr_type = CHAR; 


while (token == Mul) { 
match(Mul); 
expr_ type = expr_ type + PTR; 


match(')'); 

// emit code 

*++text = IMM; 

*++text = (expr_type == CHAR) ? sizeof(char) : sizeof(int); 


expr_type = INT, 


注意 的 是 只 支持 sizeof(int) ， sizeof(char) 及 
sizeof (pointer type...) 。 并 且 它 的 结果 是 int 型 。 


变量 与 函数 调用 


由 于 取 变 量 的 值 与 骂 数 的 调用 都 是 以 Id 标记 开头 的 ， 因 此 将 它们 放 在 一 起 处 
理 。 


else if (token == Id) { 

// there are several type when occurs to Id 
// but this is unit, so it can only be 

// 1\. function call 

// 2\. Enum variable 

// 3\. global/local variable 

match(Id); 


id = current_id; 


BGO n= 
// function call 


match('('); 


// © 

// pass in arguments 

tmp = 0; // number of arguments 
while (token != ')') { 
expression(Assign); 

*++text = PUSH; 

tmp ++; 


if (token == ',') { 
match(','); 
} 


match(')'); 


// @ 

// emit code 

if (id[Class] == Sys) { 
// system functions 
*++text = id[Value]; 


else if (id[Class] == Fun) { 

// function call 

*++text = CALL; 

*++text id[Value]; 

} 

else { 

printf("%d: bad function call\n", line); 
exit(-1); 

} 


// 图 
// clean the stack for arguments 
if (tmp > 0) { 


*++text ADJ; 

*++text tmp; 

} 

expr_type = id[Type]; 

else if (id[Class] == Num) { 
// © 


// enum variable 
*++text = IMM; 
*++text = id[Value]; 
expr_type = INT; 


else { 

// © 

// variable 

if (id[Class] == Loc) { 

*++text = LEA; 

*++text = index of bp - id[Value]; 


} 
else if (id[Class] == Glo) { 


*++text = IMM; 

*++text = id[Value]; 

else { 

printf("%d: undefined variable\n", line); 
exit(-1); 

//® 


// emit code, default behaviour is to load the value of the 
// address which is stored in ‘ax’ 

expr_type = id[Type]; 

*++text = (expr_type == Char) ? LC : LI; 

} 

} 


@@ 中 注意 我 们 是 顺序 将 参数 入 栈 ， 这 和 第 三 章 : 虚拟 机 中 讲解 的 指令 是 对 应 的 。 与 
之 不 同 ， 标 准 C 是 逆序 将 参数 入 栈 的 。 


@ 中 判断 函数 的 类 型 ， 同 样 在 第 三 章 :“ 虚 拟 机 ”中 我 们 介绍 过 内 置 函 3 数 的 支持 ， 如 
printf , read ，malloc 等 等 。 SRE ARA RE H: 汇编 指令 ， 而 普通 的 函数 则 
编译 成 CALL &lt;addr&gt; 的 形式 。 


@ 用 于 清除 入 栈 的 参数 。 因 为 我 们 不 在 乎 出 栈 的 值 ， 所 以 直接 修改 栈 指针 的 大 小 即 
可 o 


图 : 当 该 标识 符 是 全 局 定义 的 枚 举 类 型 时 ， 直 接 将 对 应 的 值 用 IMM 指令 存 入 
AX FPA ° 


@@ 则 是 用 于 加 载 变量 的 值 ， 如果 是 局 部 变量 则 采用 与 bp 指针 相对 位 置 的 形式 
(参见 第 7 章 函 数 定 义 ) 。 而 如 果 是 全 局 变量 则 用 IMM 加 载 变量 的 地 址 。 


©: 无 论 是 全 局 还 是 局 部 变量 ， 最 终 都 根据 它们 的 类 型 用 to 或 LI 指令 加 载 对 
应 的 值 。 


关于 变量 ， 你 可 能 有 疑问 ， 如 果 遇 到 标识 符 就 用 LC/LI 载 入 相应 的 值 ， 那 诸如 
allo] 之 类 的 表达 式 要 如 何 实现 呢 ? 后 面 我 们 会 看 到 ， 根 据 标识 符 后 的 运算 符 ， 
我 们 可 能 会 修改 或 删除 现 有 的 LC/LI 指令 。 


强制 转换 


虽然 我 们 前 面 没 有 提 到 ， 但 我 们 一 直 用 expr_type 来 保存 一 个 表达 式 的 类 型 ， 
强制 转换 的 作用 是 获取 转换 的 类 型 ， 并 直接 修改 expr_ type 的 值 。 


else if (token == '(') { 

// cast or parenthesis 

match('('); 

if (token == Int || token == Char) { 

tmp = (token == Char) ? CHAR : INT; // cast type 
match(token); 

while (token == Mul) { 

match(Mul); 

tmp = tmp + PTR; 


match(')'); 
expression(Inc); // cast has precedence as Inc(++) 


expr_type = tmp; 

} else { 

// normal parenthesis 
expression(Assign); 
match(')'); 


} 


指针 取 值 


诸如 ta 的 指针 取 值 ， 关键 是 判断 a 的 类 型 ， 而 就 像 上 节 中 提 到 的 ， 当 一 个 表 
达 式 解析 结束 时 ， 它 的 类 型 保存 在 变量 expr_type 中 。 


else if (token == Mul) { 

// dereference *<addr> 

match(Mul); 

expression(Inc); // dereference has the same precedence as Inc(++) 


if (expr_type >= PTR) { 

expr_type = expr_type - PTR; 

} else { 

printf("%d: bad dereference\n", line); 
exit(-1); 

} 


*++text = (expr_type == CHAR) ? LC : LI; 
} 


A 
取 址 操作 


这 里 我 们 就 能 看 到 “变量 与 函数 调用 "一 节 中 所 说 的 修改 或 删除 LC/LI 指令 了 。 前 
文中 我 们 说 到 ， 对 于 变量 ， 我 们 会 先 加 载 它 的 地 址 ， 并 根据 它们 类 型 使 用 LC/LI 
指令 加 载 实际 内 容 ， 例 如 对 变量 a 


IMM <addr> 


那么 对 变量 a 取 址 ， 其 实 只 要 不 执行 LC/LI 即 可 。 因 此 我 们 删除 相应 的 指 
A o 
else if (token == And) { 
// get the address of 
match(And); 
expression(Inc); // get the address of 
in (etext eA ex = 
text --; 
} else { 
printf("%d: bad address of\n", line); 
exit(-1); 
} 
expr_type = expr_type + PTR; 
} 
ZARR 


我 们 没有 直接 的 逻辑 取 反 指令 ， 因 此 我 们 判断 它 是 否 与 数字 0 相等 。 而 数字 0 代表 
了 逻辑 “False”。 


else if (token == '!') { 
// not 
match('!'); 


expression(Inc); 


// emit code, use <expr> == 


*++text = PUSH; 
*++text = IMM; 
*++text = 0; 
*++text = EQ; 


expr_type = INT; 


按 位 取 反 


同样 我 们 没有 相应 的 指令 ， 所 以 我 们 用 异 或 来 实现 ， 即 ~a = a A OXFFFF ° 


else if (token == '~') { 
// bitwise not 
match('~'); 
expression(Inc); 


// emit code, use <expr> XOR -1 


*++text = PUSH; 
*++text = IMM; 
Ar text =a]; 

*++text = XOR; 


expr_type = INT; 


正 负 号 


注意 这 里 并 不 是 四 则 运 葛 中 的 加 减法 ， 而 是 单个 数字 的 取 正 取 负 操作 。 同 样 ， 我 们 
没有 取 负 的 操作 ,用 o- x 来 实现 -x 。 


else if (token == Add) { 
// +var, do nothing 
match(Add); 
expression(Inc); 


expr_type = INT, 
else if (token == Sub) { 
// -var 


match(Sub); 


if (token == Num) { 
*++text = IMM; 


*++text = -token_val; 
match(Num); 

} else { 

*++text = IMM; 

Waa De Ea 


*++text = PUSH; 
expression(Inc); 
*++text = MUL; 

} 


expr_type = INT; 


自 增 自 减 


注意 的 是 自 增 自 减 操作 的 优先 级 是 和 它 的 位 置 有 关 的 。 如 ++p 的 优先 级 高 于 
p++ ， 这 里 我 们 解析 的 就 是 类 似 ++p 的 操作 。 


else if (token == Inc || token == Dec) { 
tmp = token; 

match(token); 

expression(Inc); 

ED 

if (*text == LC) { 

*text = PUSH; // to duplicate the address 
*++text = LC; 

} else if (*text == LI) { 

*text = PUSH; 

*++text = LI; 


} else { 

printf (“%d: bad lvalue of pre-increment\n", line); 
exit(-1); 

*++text = PUSH; 

*++text = IMM; 

// © 

*++text = (expr_type > PTR) ? sizeof(int) : sizeof(char); 
*++text = (tmp == Inc) ? ADD : SUB; 

*++text = (expr_type == CHAR) ? SC : SI; 

} 


对 应 的 汇编 代码 也 比较 直观 ， 只 是 在 实现 ++p 时 ， 我 们 要 使 用 变量 p 的 地 址 两 
次 ， 所 以 我 们 需要 先 PUSH (@) © 


@ 则 是 因为 自 增 自 减 操作 还 需要 处 理 是 指针 的 情形 。 


二 元 运算 符 


这 里 ， 我 们 需要 处 理 多 运算 符 的 优先 级 问题 ， 就 如 前 文 的 “优先 级 "一 节 提 到 的 ， 我 
们 需要 不 断 地 向 右 扫 描 ， 直 到 遇 到 优先 级 小 于 当前 优先 级 的 运算 符 。 


回想 起 我 们 之 前 定义 过 的 各 个 标记 ， 它 们 是 以 优先 级 从 低 到 高 排列 的 ， 即 
Assign 的 优先 级 最 低 ， 而 Brak ( [ ) 的 优先 级 最 高 。 


enum { 

Num = 128, Fun, Sys, Glo, Loc, Id, 

Char, Else, Enum, If, Int, Return, Sizeof, While, 

Assign, Cond, Lor, Lan, Or, Xor, And, Eq, Ne, Lt, Gt, Le, Ge, Shl, 
J; 


aj 








所 以 ， 当 我 们 调用 expression(level) 进行 解析 的 时 候 ， 我 们 其 实 通过 了 参数 
level 指定 了 当前 的 优先 级 。 在 前 文 的 一 元 运算 符 处 理 中 也 用 到 了 这 一 点 。 


所 以 ， 此 时 的 二 元 运算 符 的 解析 的 框架 为 : 


while (token >= level) { 
// parse token for binary operator and postfix operator 


} 


解决 了 优先 级 的 问题 ， 让 我 们 继续 讲解 如 何 把 运算 符 编 译 成 汇编 代码 吧 。 


赋值 操作 


赋值 操作 是 优先 级 最 低 的 运算 符 。 考 虑 诸如 a = (expession) 的 表达 式 ， 在 解 
析 = 之 前 ， 我 们 已 经 为 变量 a 生成 了 如 下 的 汇编 代码 : 


IMM <addr> 
LC/LI 


当 解 析 完 = 右边 的 表达 式 后 ， 相 应 的 值 会 存放 在 ax 中 ， 此 时 ， 为 了 实际 将 这 个 
值 保 存 起 来 ， 我 们 需要 类 似 下 面 的 汇编 代码 : 


IMM <addr> 
PUSH 
SC/SI 


明白 了 这 点 ， 也 就 能 理解 下 面 的 源 代码 了 : 


tmp = expr_type, 

if (token == Assign) { 

// var = expr; 

match(Assign); 

in C text -= Le text = 

*text = PUSH; // save the lvalue's pointer 

} else { 

printf("%d: bad lvalue in assignment\n", line); 
exit(-1); 


expression(Assign); 
expr_type = tmp; 


*++text = (expr_type == CHAR) ? SC : SI; 
} 


Ne RE Kk 


=H aH AT 


这 是 C 语言 中 唯一 的 一 个 三 元 运算 符 : ? : ， 它 相当 于 一 个 小 型 的 |f 语 句 ， 所 以 
生成 的 代码 也 类 似 于 上 语句， 这 里 就 不 多 作 解 释 。 


else if (token == Cond) { 
// expr ? a : b; 
match(Cond); 

*++text = JZ; 

addr = ++text; 
expression(Assign); 

if (token == ':') { 
match(':'); 

} else { 

printf("%d: missing colon in conditional\n", line); 
exit(-1); 


} 

*addr = (int)(text + 3); 
*++text = JMP; 

addr = ++text; 
expression(Cond); 

*addr = (int)(text + 1); 


ZE HF 

这 包括 || 和 8 级。 它们 对 应 的 汇编 代码 如 下 : 
<expri> || <expr2> <expri> && <expr2> 
wee SCPL as sae SOXDriles 25 
JNZ b JZ b 
.. .<expr2>... .. .<eXxpr2>... 
b: b: 


所 以 源码 如 下 : 


else if (token == Lor) { 
// logic or 

match(Lor); 

*++text = JNZ; 

addr = ++text; 
expression(Lan); 

*addr = (int)(text + 1); 
expr_type = INT, 


else if (token == Lan) { 
// logic and 

match(Lan); 

*++text = JZ; 

addr = ++text; 
expression(Or); 

*addr = (int)(text + 1); 
expr_type = INT; 


数学 运算 符 

它们 包括 NR, Bee, Wee, fae, ee Belien, Redon. Ge, Pear. 
&lt;&lt; , &gt;&gt; , +, -, *, 7, % 。 它 们 的 实现 都 很 类 似 ， 我 们 以 
FR 人 为 例 : 


<expri> ^ <expr2> 


TELEXI <- now the result is on ax 
PUSH 
v2 =SOXPP2>. 2. <- now the value of <expr2> is on ax 
XOR 
所 以 它 对 应 的 代码 为 : 


else if (token == Xor) { 
// bitwise xor 
match(Xor); 

*+4+text = PUSH; 
expression(And); 

*++text = XOR; 

expr_type = INT, 


其 它 的 我 们 便 不 再 详 述 。 但 这 当中 还 有 一 个 问题 ， 就 是 指针 的 加 减 。 在 C 语言 中 ， 
指针 加 上 数值 等 于 将 指针 移 位 ， 且 根据 不 同 的 类 型 移动 的 位 移 不 同 。 如 ati >? 
如 果 a 是 char * 型 ， 则 移动 一 字 节 ， 而 如 果 a 是 int * 型 ， 则 移动 4 


NEW (32 位 系统 ) ° 


另外 ， 在 作 指 针 减 法 时 ， 如 果 是 两 个 指针 相 减 (相同 类 型 ) ， 则 结果 是 两 个 指针 间 
隔 的 元 素 个 数 。 因 此 要 有 特殊 的 处 理 。 


下 面 以 加 法 为 例 ， 对 应 的 汇编 代码 为 : 


<expri> + <expr2> 


normal pointer 

<expri> <expri> 

PUSH PUSH 

<expr2> <expr2> | 

ADD PUSH | <expr2> * <unit> 
IMM <unit> | 
MUL | 
ADD 


Bp @lt;expriagt; 是 指针 时 ， 要 根据 它 的 类 型 放大 &lt;expr2&gt; 的 值 ， 
因此 对 应 的 源码 如 下 : 


else if (token == Add) { 
// add 

match(Add); 

*++text = PUSH; 
expression(Mul); 


expr_ type = tmp; 
if (expr_ type > PTR) { 
// pointer type, and not ‘char *` 


*++text = PUSH; 
*++text = IMM; 

*++text = sizeof(int); 
*++text = MUL; 

} 

*++text = ADD; 

} 


相应 的 减法 的 代码 就 不 贴 了 ， 可 以 自己 实现 看 看 ， 也 可 以 看 文 末 给 出 的 链接 。 
自 增 自 减 
次 是 后 组 形式 的 ， 即 pH 或 p-- 。 与 前 组 形式 不 同 的 是 ， 在 执行 自 增 自 减 


后 ， ax 上 需要 保留 原来 的 值 。 所 以 我 们 首先 执行 类 似 前 级 自 增 自 减 的 操作 ， 再 
将 ax 中 的 值 执行 减 / 增 的 操作 。 


// 前 缓 形式 生成 汇编 代码 


*++text = PUSH; 

*++text = IMM; 

*++text = (expr_type > PTR) ? sizeof(int) : sizeof(char); 
*++text = (tmp == Inc) ? ADD : SUB; 

*++text = (expr_type == CHAR) ? SC : SI; 


// 后 缓 形式 生成 汇编 代码 


*++text = PUSH; 
*++text = IMM; 
*++text = (expr_type > PTR) ? sizeof(int) : sizeof(char); 
*++text = (token == Inc) ? ADD : SUB; 
*++text = (expr_type == CHAR) ? SC : SI; 
*+4+text = PUSH; // 
*++text = IMM; // 执行 相反 的 增 / 减 操作 
*++text = (expr_type > PTR) ? sizeof(int) : sizeof(char); // 
*++text = (token == Inc) ? SUB : ADD; // 
数组 取 值 操作 


在 学 习 C 语言 的 时 候 你 可 能 已 经 知道 了 ， 诸 如 ajio] 的 操作 等 价 于 
*(a + 10) 。 因 此 我 们 要 做 的 就 是 生成 类 似 的 汇编 代码 : 


else if (token == Brak) { 
// array access var[xx] 
match(Brak) ; 

*++text = PUSH; 
expression(Assign) ; 
match(']'); 


if (tmp > PTR) { 
// pointer, ‘not char *` 


*++text = PUSH; 
*++text = IMM; 

*++text = sizeof(int); 
*++text = MUL; 

} 


else if (tmp < PTR) { 
printf (“%d: pointer type expected\n", line); 


exit(-1); 

} 

expr_type = tmp - PTR; 

*++text = ADD; 

*++text = (expr_type == CHAR) ? LC : LI; 
} 


代码 


除了 上 述 对 表达 式 的 解析 外 ， 我 们 还 需要 初始 化 虚拟 机 的 栈 ， 我 们 可 以 正确 调用 
main A’ HY main 函数 结束 时 退出 进程 。 


Int *tmp; 
// setup stack 
sp = (int *)((int)stack + poolsize); 


--sp = EXIT; // call exit if main returns 
*_-sp = PUSH; tmp = sp; 
*--Sp = argc; 
*_-sp = (int)argv; 
*_-sp = (int)tmp; 


当然 ， 最 后 要 注意 的 一 点 是 : 所 有 的 变量 定义 必须 放 在 语句 之 前 。 
本 章 的 代码 可 以 在 Github 上 下 载 ， 也 可 以 直接 clone 


git clone -b step-6 https://github.com/lotabout/write-a-C-interpret 
en 





通过 gee -o xc-tutor xc-tutor.c 进行 编译 。 并 执行 
./xc-tutor hello.c 查看 结果 。 


正如 我 们 保证 的 那样 ， 我 们 的 代码 是 自 举 的 ， 能 自己 编译 自己 ， 所 以 你 可 以 执行 
./xc-tutor xc-tutor.c hello.c 。 可 以 看 到 和 之 前 有 同样 的 输出 。 


本 草 我 们 进行 了 最 后 的 解析 ， 解 析 表 达 式 。 本 章 有 两 个 难点 : 


1. 如 何 通 过 递归 调用 expression 来 实现 运算 符 的 优先 级 。 
2. 如 何 为 每 个 运算 符 生成 对 应 的 汇编 代码 。 


尽管 代码 看 起 来 比较 简单 (BARS) ， 但 其 中 用 到 的 原理 还 是 需要 仔细 推 获 的 。 
Bo RE! 通过 一 步 步 的 学 习 ， 自 己 实现 了 一 个 C 语 言 的 编译 器 (好 吧 ， 是 解 
B) o 


\\ 


手把手 教 你 做 一 个 C 语言 编译 器 (9) : BH 


茶 喜 你 完成 了 自己 的 C 语言 编译 器 ， 本 章 中 我 们 发 一 发 牢骚 ， 说 一 说 编写 编译 器 值 
得 注意 的 一 些 问 题 ; 编写 编译 器 时 遇 到 的 一 些 难题 。 


本 系列 : 


1. 手把手 教 你 做 一 个 C 语言 编译 器 (0) : WE 

2. 手把手 教 你 做 一 个 C 语言 编译 器 (1) : 设计 

3. 手把手 教 你 做 一 个 C 语言 编译 器 (2) : 虚拟 机 
4. 手把手 教 你 做 一 个 C 语言 编译 器 (3) : 词法 分 析 器 
5. 手把手 教 你 做 一 个 C 语言 编译 器 (4) : 递归 下 降 
6. 手把手 教 你 做 一 个 C 语言 编译 器 (5) : 变量 定义 
7. 手把手 教 你 做 一 个 C 语言 编译 器 (6) : 函数 定义 
8. 手把手 教 你 做 一 个 C 语言 编译 器 (7) :语句 

9. 手把手 教 你 做 一 个 C 语言 编译 器 (8) : 表达 式 


虚拟 机 与 目标 代码 

整个 系列 的 一 开始 ， 我 们 就 着 手 虚拟 机 的 实现 。 不 知道 你 是 否 有 同感 ， 这 部 分 对 于 
整个 编译 器 的 编写 其 实 是 十 分 重要 的 。 我 认为 至 少 占 了 重要 程度 的 50% 。 

这 里 要 说 明 这 样 一 个 观点 ， 学 习 编 译 原 理 时 常常 着 眼 于 词法 分 析 和 语法 分 析 ， 而 忽 
略 了 同样 重要 的 代码 生成 。 对 于 学 习 或 考试 而 言 或 许可 以 ， 但 实际 编译 项 目 时 ， 最 
为 重要 的 是 能 “ 跑 起 来 "所 以 我 们 需要 给 予 代码 生成 高 度 的 重视 。 


同时 我 们 也 看 到 ， 在 后 期 解析 语句 和 表达 式 时 ， 难 点 已 经 不 再 是 语法 分 析 了 ， 而 是 
如 何 为 运算 符 生成 相应 的 汇编 代码 。 


词法 分 析 

我 们 用 了 很 暴力 的 手段 编写 了 我 们 的 词法 分 析 器 ， 我 认为 这 并 无 不 可 。 

但 你 依旧 可 以 学 习 相关 的 知识 ， 了 解 自动 生成 词法 分 析 器 的 原理 ， 它 涉及 到 了 "正则 
表达 式 "，“ 状 态 机 ”等 等 知识 。 相 信 这 部 分 的 知识 能 够 很 大 程度 上 提高 你 的 编程 水 
同时 ， 如 果 今后 你 仍然 想 编写 编译 器 ， 不 妨 试 试 这 些 自动 生成 工具 。 


语法 分 析 


长 期 以 来 ， 语 法 分 析 对 我 而 言 一 直 是 迷 一 样 的 存在 ， 直 到 旧 正 用 递归 下 降 的 方式 实 
现 了 一 个 。 


我 们 用 了 专门 的 一 章 讲解 了 “递归 下 降 ” 与 BNF 文法 的 关系 。 布 望 能 减少 你 对 理论 的 
厌恶 。 至 少 ， 实 现 起 来 并 不 是 太 难 。 


如 果 有 兴趣 ， 可 以 学 习 学 习 这 些 文法 ， 因 为 已 经 有 许多 自动 生成 的 工具 支持 它们 。 
这 样 你 就 不 需要 重复 造 轮子 。 可 以 看 看 yacc 等 工具 ， 更 先进 的 版 本 是 bsion ° 
同时 其 它 语言 也 有 许多 类 似 的 支持 。 


题 外 话 ， 最 近 知 道 了 一 个 叫 *PEG 文法 ”的 表示 方法 ， 无 论 是 读 起 来 ， 还 是 实现 起 
来 ， 都 比 BNF 要 容易 ， 你 也 可 以 学 习 看 看 。 


关于 编 代 码 
这 也 是 我 自己 的 感慨 吧 。 无 论 多 好 的 教程 ， 想 要 完全 理解 它 ， 最 好 的 方式 恐怕 还 是 
要 自己 实现 它 。 


只 是 在 编写 代码 的 过 程 中 ， 我 们 会 遇 到 许多 的 挫折 ， 例 如 需要 考虑 许多 细节 ， 或 是 
调试 起 来 十 分 困难 。 但 也 只 有 昌 正 静 下 心 来 去 克服 它 ， 我 们 才能 有 所 成 长 吧 。 


例如 在 编写 表达 式 的 解析 时 ， 大 量 重复 的 代码 特别 让 人 崩溃 。 还 有 就 是 调试 编译 
器 ， 简 站 痛苦 地 无 话 可 说 。 


P.S. 如 果 你 按 这 个 系列 自己 编写 代码 ， 记 得 事先 写 一 些 用 于 输出 汇编 代码 的 函数 ， 
很 有 帮助 的 。 


还 有 就 是 写 这 个 系列 的 文章 ， 开始 的 冲动 过 了 之 后 ， Fa AB 4G BY OT > Ar Z 
草本 身 没 有 受 我 的 这 种 情绪 影响 吧 。 


编程 有 趣 又 无 趣 ， 只 有 身 在 其 中 的 我 们 才能 体会 吧 。 


